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لايسمح بإعادة إصدار هذا الكتاب» أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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هذه ترحمة عربية لكتاب: 


Natural Language Processing for the Semantic Web 


Synthesis Lectures on the Semantic Web: Theory and Technology 


Published by 
Morgan & Claypool Publishers (2016), United Kingdom 


ويتحمل المترجم الشؤون القانونية المرتبطة بحقوق الكتاب. 
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مقدمة المترجم 


الحمد لله» والصلاة والسلام على رسول الله نبينا محمد عليه أفضل الصلاة وأتم 
التسليم» وبعد: 

عصر الذكاء الاصطناعى كما يدعوه البعض بذلك» وأحيانا يدعى بعصر البيانات 
Ha cada‏ العصر الاي eG‏ افيه قوة الات با e CAS culla cya ad‏ 
تحليلها والإفادة منها. يأتي هذا الكتاب في ظل شح المكتبة العربية بالمؤلفات حول هذا 
الفن» ويقدم للقارئ العربي المفاهيم الرئيسة لتقنيات معالجة اللغات الطبيعية» والتي 
تندرج تحت علم الذكاء الاصطناعي. يبسط هذا الكتاب تلك المفاهيم بداية من 
الكلمات وصرفها إلى تجزئة الجمل وتصنيف أقسام الكلام والتعابير الدلالية المختلفة» 
مرورا بأحدث التطبيقات والأدوات التي تستخدم لمعالجة اللغات الطبيعية» ثم يربط 
ذلك بالويب وكيف يمكن أن تتكامل تقنيات معالجة اللغات الطبيعية مع تقنيات 
الويب والبيانات الضخمة. 

تقنيات الويب الدلالي تقوم بتحويل البيانات غير الهيكلية إلى بيانات نافعة وذات 
معنى» وتعد تقنيات معالجة اللغات الطبيعية من أهم وأنفع الطرق لتحويل البيانات 
الضخمة في الويب إلى بيانات ذات مدلول يمكن قراءتها وتحليلها والاستفادة من 
مخرجاتها. يندرج تحت موضوع الويب الدلالي العديد من الموضوعات المتعلقة id laas‏ 
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اللغات الطبيعية» ويعرض هذا الكتاب أهمها. فمن الأمثلة الحيوية التى تطرق لما هذا 
الكتاب موضوع تحليل المشاعر تجاه أمر ما (منتج» حدث» 1 غيره). هذا 
الموضوع الذي تعكف على تطويره كبريات الشركات في العالم سواء التجارية منها 
كأمازون أو مواقع التواصل الاجتماعي مثل تويتر وغيرها في شتى المجالات التجارية 
والسياسية والاقتصادية والاجتاعية. 

اللغة العربية تشترك مع لغات العالم كونها تتألف من جذور وجذوع oS,‏ 
وسوابق ولواحق وجمل وحروف جر وأصوات وغيرهاء وتختص مع عدد من لغات 
العام كونها تكتب من اليمين لليسار» كا تختص مع عدد قليل جدا من اللغات العالمية 
كونها لغة ذات غنى صرفي» وتنفرد بأن الله سبحانه وتعالى شرفها بأن تكون لغة لكتابه 
العزيزء الذي لا يأتيه الباطل من بين يديه ولا من خلفه تنزيل من حكيم حميد. 

ولذا كان من الواجب على أهل الاختصاص في اللغة العربية وأهل الاختصاص في 
الحاسب الآلي وهم المعنيون بالدرجة الآولى أن يعملوا جنبا إلى جنب في جال itla)‏ 
اللغة العربية حاسوبيا)» لتواكب بل ولتسبق اللغات الأخرى؛ فاللغة العربية تأي في 
المركز الأول عالميا في عدد الدول التي أقرتها لغة رسمية فيها. وإن تكلمنا عن روعة 
وإتقان فصاحتها وبلاغتها فلن توفيها الكلمات حقها ولو طالت. وأشير هنا إشارة 
تذكير وهي أن معالجة اللغات الطبيعية لا تعني أن نطوع اللغة لتناسب مبادئ الحاسب 
«VI‏ بل لندرب الحاسب JYI‏ ليفهم ويدرك اللغة ويتعامل معها كتعامل وفهم البشر 
قدر ما نستطيع» وهذا هو المبداً الرئيس لعلم معالجة اللغات الطبيعية. 

يقدم هذا الكتاب المفاهيم الرئيسة بشكل مبسطء ولذلك فهو من أنسب الكتب 
لمن يجد نفسه راغبا في الدخول إلى علم معالجة اللغات الطبيعية والويب الدلالي» حيث 
لايكتفي هذا الكتاب بشرح اش علم معالجة اللغات الطبيعية وارتباطه بالويب 
الدلالي بل يقدم الأدوات المناسبة والحديثة المستخدمة في كل مهمة من مهام هذه العلوم» 
ويقارن بينها ويعرضها ببساطة» ولذا نقترح على القارئ الكريم أن تكون منهجيته في 
القراءة التطبيق على هذه الأدوات المقترحة أو بعضها فالتطبيق يرسخ المعلومة ويوضح 
اللبس فيها إن وجد. 
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وأشير إلى نقطة مهمة للقارئ الكريم وهي أن يلقي نظرة على مسرد المصطلحات 
في آخر الكتاب قبل أن يبدأ القراءة» والهدف من ذلك أن تكون كلمات المصطلحات 
مفهومة وواضحة ومألوفة بالنسبة له» إذ لاتوجد مصطلحات عربية موحدة في هذا 
المجال» ولعل هذا العمل أن يكون نقطة انطلاقة لتوحيد الجهود نحو مصطلحات 
موحدة ومتفق عليها من قبل ال متخصصين في هذا JU‏ 

ولا يفوتني في هذا المقام أن أتقدم بالشكر الوافر بعد شكر الله سبحانه هذا المركز 
المبارك» مركز الملك عبدالله بن عبدالعزيز لخدمة اللغة العربية» جزى الله القائمين عليه 
خير الجزاء ووفقهم وسددهم. 


د. خالد بن عبدالرحن all‏ 
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٥‏ حمادى الأول ٠٤٤١‏ هم 
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كلمة المحرر 


سواء أكنت تسميها الويب الدلالي» el‏ البيانات المرتبطة» آم الويب Y, ٠‏ فإن الجيل 
الجديد من تقنيات الويب يحقق تقدمًا كبيرًا في تطور الشبكة العنكبوتية العالمية. نظرًا OX‏ 
الجيل الأول من هذه التقنية ينتقل خارج المختبرات» فإن الأبحاث الجديدة تستكشف 
كيف ستغير شبكة الويب المتنامية عالمنا. في حين أن موضوعات مثل بناء علم الوجود 
والمنطق تبقى مهمة» وهناك مجحالات جديدة مثل استخدام علم الدلالة في بحث الويب» 
وربط واستخدام البيانات المفتوحة على الويب» والتطبيقات المستقبلية التي ستدعمها 
هذه التقنيات» كل هذه الاتجاهات تعد مجاللات بحث مهمة. 

كل مستخدمي الویب» سواء أكانوا علماء آم مهندسين آم ممارسينء يحتاجون بشكل 
متزايد إلى فهم أعمق -ليس فقط للتقنيات الجديدة للويب الدلالي- بل لفهم المبادئ 
التي تعمل بها هذه التقنيات» وأفضل المارسات لتجميع الأنظمة التي تدمج اللغات 
المختلفة والموارد المتنوعة والوظائف التي ستكون مهمة في الحفاظ على شبكة الإنترنت 
التي تتوسع بسرعةء وتغير بشكل مستمر كمية المعلومات التي غيرت حياتنا. 

الموضوعات المضمنة في هذا الكتاب: 

e‏ مبادئ الويب الدلالي من البيانات المرتبطة إلى تصميم الأنطولوجيا 

e‏ تقنيات وخوارزميات الويب الدلالي الرئيسة 
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* تقنيات البحث واللغة الدلالية 

* شبكة البيانات» الناشئة واستخدامها في تطبيقات الصناعة والحكومات 
والتطبيقات المستخدمة à‏ الجامعات 

٠‏ الثقة والشبكات الاجتاعية وتكنولوجيا التعاون وعلاقتهم بالويب الدلالي 

* اقتصاديات تكييف الويب الدلالي واستخدامه 
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معالجة اللغات الطبيعية (NLP)‏ هي المعالحة التلقائية للنص المكتوب باللغات 
zs dall‏ .)5 3( (الاتجلدية والترسية Anual)‏ وغرعا» بذلا من اللخات 
الاصطناعية مثل لغات البرمجةء والغاية من تلك المعالجة هي محاولة «فهم» النص. تُعرف 
معالجة اللغات الطبيعية أيضًا باسم اللغويات الحاسوبية (CL)‏ أو هندسة اللغات 
الطبيعية (211:17). تشمل معالجة اللغات الطبيعية مجموعة واسعة من المهام» بدءًا بالمهام 
ذات المستوى المنخفض. مثل تقسيم النص إلى جمل وكلمات» ووصولاً إلى تطبيقات 
معقدة رفيعة المستوى مثل إضافة الحواشى والشروحات الدلالية وتعدين الآراء. نقصد 
بالويب L2] JE‏ الد لالات caldi Jf‏ إل الانات الجر غل e SA‏ 
بحيث يمكن معالجة صفحات الويب والتعامل معها من قبل الآلة بسهولة كبرى أحد 
المظاهر الرئيسة لهذا المفهوم تتمثل في وصف الموارد باستخدام مُعرّفات فريدة» تسمى 
مُعرٌّفات الموارد الموحدة (ئ0R1).‏ يمكن أن تكون الموارد كيانات» مثل «باراك أوباما)» 
أو مفاهيم مثل «سياسي» أو علاقات تصف كيفية ارتباط الكيانات بعضها ببعض» مثل 
«زوجة». توفر تقنيات معالحة اللغات الطبيعية وسيلة لتعزيز بيانات الويب بالدلالاات» 
على سبيل المثال عن طريق إضافة معلومات عن الكيانات والعلاقات بصورة تلقائية 
وفهم أي من الكيانات الموجودة في العالم الحقيقي تجري الإشارة إليها بحيث يمكن 
تخصيص مُعرّف URI‏ لكل كيان. 

المدف من هذا الكتاب هو تعريف القراء المتعاملين مع تقنيات الويب الدلالي» 
أو المهتمين le‏ بموضوع معالجة اللغات الطبيعية ودورها وأهميتها في dle‏ الويب 
الدلالي. على الرغم من أن Jle‏ معالجة اللغات الطبيعية Jor‏ قبل ظهور الويب الدلالي 
بوقت طويلء إلا أن أهميته لم تبرز على الواجهة بقوة إلا في السنوات الأخيرة» ولا سيا مع 
انتقال تقنيات الويب الدلالي نحو تقنيات موجهة نحو التطبيقات بصورة كبرى. لذلك 
فإن الغرض من هذا الكتاب هو تفسير دور معالجة اللغات الطبيعية وإعطاء القراء 
Ce‏ أكبر لبعض مهام معالجة اللغات الطبيعية التي تعد الأكثر أهمية لتطبيقات الويب 
الدلالي» بالإضافة إلى تقديم بعض الإرشادات حول اختيار الأساليب والآدوات 
الأنسب والأكثر ملاءمة لسيناريو معين. في نهاية الأمرء يتمثل ال هدف في أن يخرج 
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القارئ بالمعرفة اللازمة لفهم المبادئ الرئيسة» وإذا لزم الأمرء المعرفة اللازمة لاختيار 
تقنيات معالحة اللغات الطبيعية المناسبة التى يمكن استخدامها لتعزيز تطبيقات الويب 
الدلالية. 


سيكون اليكل العام للكتاب كما يلي. سنصف أولاً بعض المكونات الأساسية 
منخفضة المستوى» ولا سيا تلك التى توجد عادة في مجموعات أدوات العمل مفتوحة 
المصدر الخاصة بمعالحة اللغات الطبيعية والتي تُستخدم على نطاق واسع في أوساط 
المهتمين بهذا المجال. بعد ذلك سنبيّن كيف يمكن الجمع بين هذه الأدوات واستخدامها 
كمّدخلات للمهام ذات المستوى الأعلى» مثل استخلاص المعلومات وإضافة الحواشي 
والشروحات الدلالية وتحليل شبكات التواصل الاجتماعي وتعدين الآراء» وأخيرًا 
سنوضح كيف يمكن بناء تطبيقات على نمط التطبيقات المعززة ON»‏ لاسترجاع 
المعلومات وتصورهاء وتطبيقات نمذجة مجتمعات الإنترنت, على أساس تلك المهام. 

هناك نقطة ينبغي أن نوضحهاء وهي أنه عندما تتحدث عن معالجة اللغات الطبيعية 
في هذا الكتاب» فإننا نشير أساسًا إلى مهمة فهم اللغات الطبيعية (NLU)‏ الفرعية» ولا 
نشير إلى مهمة تو ليد اللغات الطبيعية (NLG)‏ الفرعية ذات الصلة بالمهمة السابقة. وعلى 
الرغم من أن توليد اللغات الطبيعية مهمة مفيدة وها صلة أيضًا بالويب الدلالي» على 
سبيل المثال فيم| يتعلق بتمرير نتائج تطبيتق ما إلى المستخدم بطريقة يمكن فهمها بسهولة» 
خصوصًا في الأنظمة التي تتطلب عرض النتائج بصيغة صوتيةء إلا آنا خارج نطاق 
هذا الكتاب» لأنها تستخدم تقنيات وأدوات ختلفة جدا. وبالمثل» هناك Sae‏ من المهام 
الأخرى التي لن نناقشها هنا على الرغم من كونها تندرج عادة ضمن نطاق idla‏ 
اللغات الطبيعية» ولا Cs‏ المهام التي تُعنى بالكلام بدلاً من النص المكتوب. ومع 
ذلك» تستخدم العديد من التطبيقات الخاصة بمعالجة الكلام وتوليد اللغات الطبيعية 
مهام معالجة اللغات الطبيعية ذات المستوى المنخفض التي سنقوم بوصفها. هناك أيضًا 
بعض التطبيقات رفيعة المستوى المبنية على معالجة اللغات الطبيعية التي لن نغطيها في 
هذا الكتاب» مثل تطبيقات التلخيص والإجابة عن الأسئلة» على الرغم من كونها 
تعتمد أيضًا على الأدوات نفسها ذات المستوى المنخفض. 
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معظم أدوات معالجة اللغات الطبيعية التي ظهرت مبكرّاء مثل المحللات 
النحوية (على سبيل المثال: محلل الاعتاد المفاهيمي لشانك Schank's conceptual‏ 
dependency parser‏ [1]) هذه المحللات النحوية كانت مبنية على القواعد» ويرجع 
ذلك جزثيا إلى هيمنة بعض النظريات اللغوية (نظريات نعوم تشومسكي في المقام 
الأول 21( إضافة إلى عدم وجود القدرات الحاسوبية اللازمة» وهو ما جعل أساليب 
تعلم الآلة غير مجدية. في الثمانينيات الميلادية» بدأت أنظمة التعلم الآلي في الظهور على 
الواجهة؛ لكنها كانت تُستخدم بشكل أساسي فقط لإنشاء cole sat‏ من القواعد المشابهة 
لأنظمة القواعد المطوّرة ak‏ كانت موجودة في السابق» وذلك باستخدام تقنيات 
مثل أشجار القرار. ومع اكتساب الناذج الإحصائية شعبية كبرى» خاصة في cu‏ 
مثل الترجمة الآلية وتصنيف أقسام الكلام» حيث كانت الأنظمة المستندة إلى قواعد 
محكمة في كثير من الأحيان غير كافية لإزالة أوجه الغموضء وباتت ناذج ماركوف 
المخفية (HMMs)‏ شائعة» مستحدثة مفهوم الخصائص الموزونة وأساليب صنع القرار 
الاحتمالي. وني السنوات القليلة الماضية» اكتسب التعلم العميق والشبكات العصبية 
أيضًا شعبية عالية جداء وذلك بعد نجاحها المذهل في Jle‏ التعرف على الصور والرؤية 
الحاسوبية de)‏ سبيل المثال في التكنولوجيا المستخدمة في السيارات ذاتية القيادة)» على 
الرغم من أنه لا مجال لمقارنة ذلك النجاح الدرامي بنجاحها في مهام معالجة اللغات 
الطبيعية في الوقت الحالي. التعلم العميق هو في الأساس فرعٌ من فروع التعلم QNI‏ 
يستخدم مستويات هرمية متعددة من الخصائص التي يتم تعلمها بطريقة غير خاضعة 
للإشراف cunsupervised‏ وهذا aleg‏ مناسيًا 6 للتعامل مع البيانات الكبيرة» لأنه 
يتميز بالسرعة والكفاءة» ولا يتطلب عملية الإنشاء اليدوي للبيانات التدريبية» على 
عكس نظم التعلم الآلي التي تتم تحت الإشراف. ومع ذلك» وكا سيتبين من خلال هذا 
الكتاب» فإن إحدى مشكلات معالحة اللغات الطبيعية تتمثل في أن الأدوات (البرمجية) 
المستخدمة تحتاج للتكيف مع نطاقات ومهام محددة في معظم OU MI‏ وغالبًا ما تكون 
عملية تكييف الأدوات أسهل مع استخدام النظم المبنية على القواعد عندما يتعلق الأمر 
بمجالات التطبيق في العالم الحقيقي. وفي معظم الحالات» يجري استخدم خليط يضم 
أساليب مختلفة» وهذا يعتمد على المهمة المطلوبة. 
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١-١‏ استخلاص المعلومات 

استخلاص المعلومات هو عملية استخراج المعلومات وتحويلها إلى بيانات منظمة» 
وقد يتضمن ذلك تعبئة مصدر معرفي منظم بمعلومات من مصدر معرفي غير منظم 
[3]. بعد ذلك يمكن استخدام المعلومات الواردة في قاعدة المعارف المنظمة كمصدر 
للمهام الأخرىء مثل الإجابة على الاستفسارات التي تتم باللغات الطبيعية أو تعزيز 
محركات البحث العادية بأشكال معرفية أعمق أو أكثر ضمنية مقارنة بتلك fall‏ عنها 
في النص. نعني بمصادر المعرفة غير المنظمة النص الحرٌء مثل النص الموجود في مقالات 
الصحف والمدونات وشبكات التواصل الاجتماعي وصفحات الويب الأخرى» بدلاً 
من الجداول وقواعد البيانات والأنطولوجيات أو التجميعات» التي تشكل نصوصًا 
منظمة. ما لم ينص على خلاف ذلك» سوف نستخدم كلمة نص في بقية هذا الكتاب 
للإشارة إلى النص غير المنظم. 

عند النظر في المعلومات الواردة في النص» هناك عدة أنواع من المعلومات يمكن 
أن تكون ذات أحبية. تعد الأساء الضصحبحة من المكوثاث الرقسة igali‏ وتسمئ 
أيضًا كيانات الأسماء S (NES)‏ وتشمل أسماء الأشخاص والمواقع والمنظمات. إلى جانب 
الأسماء الصحيحةء تعد التعبيرات الزمنية US‏ مثل التواريخ والأوقات» كيانات 
أسماء. يبين الشكل ١-١‏ بعض كيانات الأسماء البسيطة في جملة. يتم ربط كيانات 
الأساء Us‏ بواسطة العلاقات. علاوة على ذلك» يمكن أن تكون هناك علاقات بين 
العلاقات نفسهاء على سبيل المثال العلاقة التي تشير إلى أن شخصًا ما هو الرئيس 
التنفيذي لشركة ما مرتبطة بالعلاقة التي تشير إلى أن شخصًا ما هو موظف في شركة 
ماء وذلك عن طريق علاقة خصائص فرعية» لأن الرئيس التنفيذي هو نوع من أنواع 
الموظفين. هناك نوع أكثر تعقيدًا من أنواع المعلومات» ألا وهو الحدث» ويمكن النظر 
إلى هذا النوع على أنه مجموعة من العلاقات التي ترتكز على الزمن. تتضمن الأحداث 
عادة المشاركين في الحدث وتاريخ البدء وتاريخ الانتهاء والموقع» على الرغم من أن 
بعض هذه المعلومات قد تكون ضمنية فقط. من الأمثلة على ذلك افتتاح مطعم. يوضح 
الشكل ۲-١‏ كيفية ارتباط الكيانات بالعلاقات التي تشكل أحداثا مرتكزة على الزمن. 
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ميت رومني» المرجح للفوز بترشيح الحزب الجمهوري لمنصب الرئيس في عام Y* VY‏ 
الشكل :١-١‏ أمثلة على كيانات الأسماء. 


ميت رومنيء المرجح للفوز بترشيح الحزب الجمهوري لمنصب الرئيس في عام YAY‏ 
الشكل ::-١‏ أمثلة على العلاقات والأحداث. 
استخلاص المعلومات عملية صعبة؛ لأن هناك العديد من الطرق للتعبير عن 
الحقائق نفسها: 
* عينت شركة BNC‏ القابضة السيدة ج. توريتا رئيسة جديدة لمجلس إدارتها 


* خلفت جينا توريتا نيكو لاس أندروز كرئيسة لشركة BNC‏ القابضة. 
* تولت السيدة جينا توريتا رئاسة شركة BNC‏ القابضة. 


علاوة على ذلك» قد تكون هناك حاجة لدمج المعلومات الموجودة في عدة جمل قد 
لااتكون متتالية. 


* بعد نضال طويل في مجلس الإدارة» تنحى السيد أندروز من منصبه كرئيس 
لمجلس إدارة شركة BNC‏ القابضة» وخلفته السيدة توريتا. 


تتألف عملية استخلاص المعلومات عادة من سلسلة من المهام» وتشمل: 
.١‏ المعالجة اللغوية المسبقة (ستشرح في الفصل الثاني)؛ 
Cei cid 3‏ الس 
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تمييز كيانات (NER) ep ME‏ هي مهمة التعرف على أن الكلمة أو سلسلة الكلمات 
المتعاقبة هي اسم صحيح» وغالبًا ما يتم تنفيذها بشكل مشترك مع مهمة تحديد أنواع 
كيانات الأسماء» مثل الشخص أو الموقع أو المنظمة» وهو ما يعرف باسم تصنيف كيانات 
الأسماء (NEC)‏ حال تنفيذ المهام في الوقت نفسه» يشار إلى ذلك بالتعرّف على 
كيانات الأساء وتصنيفها. يمكن أن يكون التعرّف على كيانات الأسماء وتصنيفها إما 
مهمة إضافة تعليقات وشروحاتء أي إضافة ملحوظات إلى نص يحتوي على كيانات 
cel‏ أو يمكن أن تكون المهمة e po‏ قاعدة معارف بكيانات الأسماء هذه. عندما 
لا تكون كيانات الأساء جرد بنية مسطّحة» وتكون مرتبطة بكيان متناظر في أحد 
الكيانات المعجمية» يعرف ذلك بالشرح التوضيحي الدلالي أو ربط كيانات الأسماء 
(NEL)‏ التحشية الدلالية أقوى بكثير من التعرّف على الكيانات all‏ لأنها تتبح 
إجراء عمليات الاستدلال والتعميم» وذلك OM‏ عملية ربط المعلومات تتيح الوصول 
إلى المعرفة غير الواردة صراحة في النص. عندما يكون الشرح التوضيحي الدلالي 
جزءًا من العملية» Gle‏ ما يشار إلى مهمة استخلاص المعلومات غلى آنا استخلاص 
المعلومات المستندة إلى علم (OBIE) BEYI‏ أو استخلاص المعلومات الموجه بواسطة 
علم الأناط (انظر الفصل الخامس). يرتبط ذلك ارتباطًا وثيقا بعملية تعلم الأنماط 
والتعبئة COLP)‏ كما هو موضح في الفصل السادس. تعد مهام استخلاص المعلومات 
أيضًا شرطًا أساسيًا للعديد من مهام استخراج الآراء» ولا سيا عندما تتطلب هذه المهام 
تحديد العلاقات بين الآراء وأهدافهاء وحيث| تستند إلى علم الأنماط» كا هو موضح في 
الفصل السابع. 


۲-١‏ الغموض 
يستحيل على أجهزة الكمبيوتر تحليل اللغة بشكل صحيح OM 2/٠٠١‏ اللغة 
شديدة الغموض. تعني اللغة الغامضة أنه يمكن تقديم أكثر من تفسير» إما من الناحية 
التركيبية أو الدلالية. كبشرء يمكننا في كثير من الأحيان استخدام المعرفة المتاحة في 
العالم لحل أوجه الغموض هذه واختيار التفسير الصحيح» لكن لا يمكن للحواسيب 
الاعتماد بسهولة على المعرفة المتاحة في العالم والحس السليم» لذلك تضطر لاستخدام 


—YA- 
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التقنيات الإحصائية أو غيرها من الوسائل لحل Deal‏ ما يتم تصميم 
بعض أنواع النصوصء مثل عنوانات الصحف والرسائل المنشورة على شبكات 
التواصل c ree YI‏ لتكون غامضة بشكل متعمد لغرض الترفيه أو لجعلها محفورة في 
الذاكرة» وفي| يلي بعض الأمثلة الكلاسيكية على ذلك: 


Foot Heads Arms Body *‏ (فوت يرأس هيئة الأسلحة). 


+€ A 


Hospitals Sued by 7 Foot Doctors *‏ (ملاحقة مستشفيات قضائ 
V‏ أطباء متخصصين في القدم). 


من قبل 


British Left Waffles on Falkland Islands °‏ (اليسار البريطاني يراوغ بشأن 
Stolen Painting Found by Tree *‏ (العثور على اللوحة المسروقة بجانب شجرة). 


في العنوان الأول» هناك غموض نحوي بين الاسم الصحيح )354( (Michael)‏ 
Foot‏ والمقصود بها هنا شخصء وبين الاسم الشائع foot‏ (قدم)» الذي يشير إلى أحد 
أعضاء الجسم؛ وبين كلمة heads‏ التي قد تعني فعل (يرأس) أو اسم جمع (رؤوس)» 
وينطبق الأمر ذاته على الأسلحة. هناك أيضًا غموض دلالي بين معاني كلمة arms‏ 
(أسلحة وأحد أعضاء الجسم)ء 5 body‏ (هيكل الجسم ومجموعة كبيرة). في Ol gall‏ 
الثاني» هناك غموض دلالي بين معاني كلمة foot‏ (أحد أعضاء الجسم ووحدة القياس)» 
وأيضًا الغموض النحوي الناتج عن طريقة ربط الصفات التعريفية V)‏ [أطباء قدم] 
v] jl‏ أقدام] أطباء). في المثال الثالث» هناك اثنان من أنواع الغموضء وها الغموض 
النحوي والدلالي» في كلمة left‏ (صيغة الماضي للكلمة» أو الاسم الجمع الذي يشير إلى 
السياسيين اليساريين). في الخال qul JE‏ هناك غموض في دور حرف الجر by‏ (كعامل 
أو كموقع). في كل مثال من هذه الأمثلة» هناك معنى واحد ممكن بالنسبة للإنسان» 
والمعنى الآخر إما مستحيل أو مستبعد للغاية (الأطباء الذين يبلغ طوهم V‏ أقدام» على 
سبيل المثال). GT‏ بالنسبة للآلة» فإن التوصل إلى فهم من دون سياق GLA‏ مفاده ترك 
معجنات الوافل [من عبارة [left waffles‏ في جزر فوكلاند» على الرغم من كون هذا 
الفهم مكنا LSU‏ هو خبر بعيد الاحتمال» ويكاد يكون مستحيلا. 
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۳-١‏ الأداء 
يختلف الأداء في مهام معالجة اللغات الطبيعية اختلافًا واسعًاء سواءٌ أكان بين المهام 
المختلفة أم بين الأدوات المختلفة» وهذا الاختلاف في الأداء ليس بسبب الغموض 
فحسب» بل نظرًا لمجموعة متنوعة من القضايا الأخرىء كا ستتم مناقشتها في عدة 
فصول من هذا الكتاب. ستتم مناقشة الأسباب التي تقف وراء اختلاف الأداء مع 
اختلاف الأدوات في الأقسام ذات الصلة» ولكن السبب يكمن بشكل عام في أن بعض 
الأدوات تكون جيدة في الأداء في بعض العناصر وفي الوقت نفسه سيئة في بعضها 
الآخرء وهناك أيضًا العديد من المشكلات المتعلقة بالأداء التي تبرز عندما يتم تدريب 
الأدوات على نوع واحد من البيانات واختبارها على نوع آخر. لكن سبب تفاوت أداء 

المهام على نطاق واسع يعود إلى حد بعيد إلى التعقيد. 

إن تأثير Se VI‏ على النطاق على idel‏ أدوات معالجة اللغات الطبيعية هى مسألة 
QU‏ ناتيت Ui]‏ رلكى كي كرن coll‏ ساس للنطيقات ف الا «iil‏ 
يجب أن تكون الأنظمة قابلة للتخصيص بسهولة لكى تناسب مجالات جديدة. تركز 
usi sein‏ التي صل رع امعد ول مدل east absol‏ 
النطاقات الفرعية الضيقة إلى حد بعيدء كا ستتم مناقشته في الفصلين الثالث والرابع. 
تعرقل العديد من الاختناقات المختلفة AS‏ النظم القائمة مع مجالات جديدة» ومن 
هذه الاختناقات الحصول على البيانات التدريبية للنظم القائمة على التعلم الآلي. عندما 
يتعلق الأمر بتكييف تطبيقات الويب الدلالي» قد تكون الاختناقات في الأنطولوجيات 
أو التجميعات أحد الأسباب» كا ستناقش في الفصل السادس. 

هناك مسألة منفصلة» وإن كانت col‏ صلة» تتعلق بتكييف النظم الحالية مع أنواع 
مختلفة من النصوص. لا نعني بذلك التغييرات في المجال فحسبء بل أيضًا أنواع 
الوسائط المختلفة (مثل البريد الإلكتروني والنص المنطوق والنص المكتوب وصفحات 
الويب وشبكات التواصل الاجتماعي)» وأنواع النصوص المختلفة (مثل التقارير 
والخطابات والكتب)» والمياكل أو البنى المختلفة (مثل التخطيطات). قد يتأثر نوع 
النص بعدة عوامل» كالولف والجمهور المستهدف ومدى كون eo ual‏ عل 
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سبيل المثال» قد لا تتبع النصوص الأقل رسمية القواعد القياسية» مثل الكتابة بالأحرف 
الكبيرة أو علامات الترقيم أو حتى الأشكال الإملائية» وكلها عوامل يمكن أن تسبب 
إشكالية للآليات المعقدة لأنظمة استخلاص المعلومات. سوف تناقش هذه المسائل 
Esai‏ الفضل الكامن: 

تصبح العديد من مهام معالجة اللغات الطبيعية» وخاصة المهام الأكثر تعقيدًاء عالية 
الدقة وقابلة للاستخدام فقط عندما تكون مركزة بشكل محكم وتقتصر على تطبيقات 
ومجالات معينة. يوضح الشكل Y— Y‏ خططًا ثلاثي الأبعاد يظهر المقايضة بين عمومية 
المجال أو خصوصيته» وتعقيد المهمة» ومستوى الأداء. من هنا يمكننا أن نرى أنه يتم 
تحقيق أعلى مستويات elo NI‏ في مهام معالجة اللغة التي تركز على جال محدد والتي تكون 
بسيطة نسبيًا (على سبيل المثال: تحديد كيانات الأسماء أبسط بكثير من تحديد الأحداث). 
3 


4 


%100 
%90 
^ %80 
4 
S‏ 
5 
à‏ ^ %30 
1 —— درجة التعقيد Saa‏ 
كيس AKI‏ الكيادات العلاقات الأحداث 


الشكل :-١‏ المفاضلات في مستويات أداء مهام معالجة اللغات الطبيعية. 
لكي تكون عملية دمج تطبيقات الويب الدلالي مجدية» يجب أن يكون هناك نوع من 
التجانس المنطقي المقبول بين العاملين في حقل الويب الدلالي وحقل معالجة اللغات 
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الطبيعية. ينطبق هذا الأمر بالطبع على جميع التطبيقات التي تتطلب دمج معالحة 
اللغات الطبيعية. على سبيل JUL‏ يحتمل أن تكون بعض التطبيقات التي تندرج تحت 
موضوع معالجة اللغات الطبيعية غير قابلة للاستخدام فعليًا في العالم الحقيقي كنظم 
تلقائية مستقلة قائمة بذاتها دون تدخل بشري. لكن الأمر ليس كذلك بالضرورة 
عندما يتعلق الأمر بأنواع أخرى من تطبيقات الويب الدلالي التي لا تعتمد على it las‏ 
اللغات الطبيعية. بعض التطبيقات مصممة لغرض مساعلة المستخدم البشري بدلاً 
من أداء المهمة بشكل مستقل تمامًا. كثيرًا ما تكون هناك مفاضلة أو مقايضة بين مقدار 
الاستقلالية التي ستعود بأعلى قدر من المنفعة على المستخدم النهائي. على سبيل «JUL‏ 
SE‏ نظم استخلاص المعلومات المستخدم النهائي من تفادي قراءة مئات أو حتى SY‏ 
SU o‏ بالتفصيل من أجل الحصول على المعلومات التي يريدهاء لأن البحث في ملايين 
الوثائق يدويًا يكاد يكون من المستحيل. من ناحية أخرى» يجب على المستخدم أن يضع 
في اعتباره أن أي نظام يعمل بشكل آلي بالكامل لن يكون Us‏ بنسبة 2/٠٠١‏ وأنه 
من المهم أن يكون تصميم النظام Ú ya‏ من حيث المفاضلة بين دقة المعلومات والقدرة 
على استرجاعها. بالنسبة لبعض التطبيقات» قد يكون من المهم استرجاع كل شيء» على 
الرغم من أن بعض المعلومات التي يتم استرجاعها قد تكون غير صحيحة. من ناحية 
أخرىء قد يكون من المهم أن يكون كل شيء يتم استرجاعه دقيقاء حتى لو فقدت بعض 
الأشياء. 


٤-١‏ هيكل الكتاب 

تم تصميم كل فصل من فصول الكتاب e‏ عرض مفهوم جديد في مسارات 
السابقة التي جرى وصفها. في كل فصل» نشرح المفهوم العام للعنصرء ونقدم أمثلة على 
الأساليب والأدوات الشائعة. وعلى الرغم من أن كل فصل يعد مستقلاً بذاته إلى حد 
ماء من حيث كونه يشير إلى مهمة iod‏ إلا أن الفصول يبنى بعضها على بعض» IJ s‏ 
فإن أفضل طريقة لقراءة الفصول الخمسة الأولى لهذا الكتاب هي بالتتابع. 
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يصف الفصل الثاني المنهجيات الرئيسة المستخدمة في مهام معالجة اللغات الطبيعية» 
المعالجة اللغوية التي تتكون منها مسارات المهام- بها في ذلك التعرف على اللغة وتجرئة 
الجمل وتقسيم الجمل وتصنيف أقسام الكلام والتحليل الصرفي والتحليل اللغوي 
والتقطيع - وتُقدم أمثلة على بعض مجموعات أدوات معالجحة اللغات الطبيعية الرئيسة. 

يقدم الفصل الثالث مهمة التعرف على كيانات الأسماء وتصنيفها (NERC)‏ وهي 
عنصر أسامي في استخلاص المعلومات ونظم إضافة التعليقات والشروحات AJY‏ 
كما يناقش الفصل أهميتها وقيودهاء إضافة إلى تلخيص المنهجيات الرئيسة هذه المهمة» 
ووصف مسارات المهام النموذجية المستخدمة في مهمة التعرف على كيانات الأسماء 
ود تصنيفها. 

يشرح الفصل الرابع مهمة استخلاص العلاقات القائمة بين الكيانات» ويوضح 
كيف ولاذا يكون ذلك مفيدًا لعملية التعبئة التلقائية لقواعد المعارف. يمكن أن تندرج 
المهمة إما على استخلاص العلاقات الثنائية بين كيانات الأساء» أو استخلاص علاقات 
أكثر تعقيدّاء مثل الأحداث. كا يشرح هذا الفصل مجموعة متنوعة من المنهجيات 
على كيانات الأسماء ومهمة استخلاص العلاقة» إلى جانب مناقشة التحديات البحثية 
الرئيسة. 

يوضح الفصل الخامس كيفية القيام بعملية ربط الكيانات عبر إضافة الدلالات 
إلى أحد نظم استخلاص المعلومات القياسية غير المهيكلة من النوع الذي تم وصفه 
في الفصول السابقة. يناقش هذا الفصل سبب كون عملية استخلاص المعلومات 
غير المهيكلة غير كافية لكثير من المهام التي تتطلب وفرة أكبر في المعلومات ومزيدًا 
من الاستنتاجات المنطقية» ويوضح كيفية ربط الكيانات التي تم العثور عليها بأحد 
الكيانات المعجمية وموارد البيانات المفتوحة المترابطة مثل (S Freebase ; DBpedia‏ 
يقدم الفصل أمثلة على مسارات المهام المستخدمة عادة في إضافة التعليقات والشروحات 
الدلالية» وكذلك أمثلة على التطبيقات في العالم الحقيقي. 
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يقدم الفصل السادس مفهوم التطوير الآلي للكيانات المعجمية أو الأنطولوجيات 
اعتمادًا على نص غير منظم» حيث يتضمن هذا المفهوم ثلاثة مكونات مترابطة هي: التعلم 
والتعبئة والتنقيح. كا تتم مناقشة بعض هذه المصطلحات وكيفية تفاعلهاء والعلاقة بين 
تطوير الكيانات المعجمية والتحشية الدلالية» ويتم وصف بعض المنهجيات النموذجية» 
ويتم البناء مرة أخرى على المفاهيم التي سبق عرضها في الفصول السابقة. 

يشرح الفصل السابع طرق وأدوات الكشف عن أنواع مختلفة من الآراء والمشاعر 
والعواطف وتصنيفهاء ويظهر مرة أخرى كيف يمكن تطبيق عمليات معالحة اللغات 
الطبيعية التي سبق شرحها في الفصول السابقة على هذه المهمة. على وجه الخصوص» 
يمكن أن يستفيد تحليل المشاعر المستند إلى الخصائص (مثل العناصر المحبوبة أو 
المكروهة في منتج ما) من عملية دمج الكيانات المعجمية الخاصة بالمنتتجات في 
المعالجة. كا يتم تقديم أمثلة على تطبيقات حقيقية في مختلف المجالات» وهو ما يبين 
كيف يمكن أيضًا إدخال تحليل المشاعر في تطبيقات أوسع في عمليات تحليل شبكات 
التواصل الاجتماعي. ونظرًا OM‏ تحليل المشاعر غالبا مايتم تطبيقه على شبكات التواصل 
الاجتماعي» يفضل قراءة هذا الفصل بالاقتران مع الفصل الثامن. 

يناقش الفصل الثامن المشكلات الرئيسة التي تتم مواجهتها أثناء تطبيق تقنيات 
معالجة اللغات الطبيعية التقليدية على نصوص شبكات التواصل e uel VI‏ نظرًا 
لاستخدامها غير العادي وغير المتسق لقواعد الإملاء والنحو وعلامات الترقيم 
وغيرها من الأمور. OM‏ الأدوات التقليدية لا تقدم fhol‏ جيدًا في كثير من الأحيان 
عند تعاملها مع هذه النصوص» فإنها غالبا ما تتطلب أن يتم تكييفها مع هذا النوع 
من النصوص. على وجه الخصوص» يمكن أن تترك المكونات الأساسية للمعالجة 
الأولية التي سبق شر حها في الفصلين الثاني والثالث تأثيرًا خطيرًا على العناصر الأخرى 
d‏ صارات المهام إذا ما ظهرت أخطاء في هذه المراحل المبكرة. يقدم هذا 
الفصل بعض الطرق الحديثة لمعاجلة نصوص شبكات التواصل الاجتماعي ويعطي 
أمثلة على بعض التطبيقات الحقيقية. l‏ 
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يجمع الفصل التاسع بين جميع العناصر التي ورد شرحها في الفصول السابقة 
من خلال تعريف ووصف عدد من مجالات التطبيق التي تتطلب إضافة تعليقات 
وشروحات دلالية» مثل استرجاع المعلومات وتصورها بطريقة معززة (o‏ وبناء 
eso‏ المستخدمين الدلالية الاجتاعية» ونمذجة مجتمعات الإنترنت. كا يتم وصف 
المنهجيات وأدوات المصدر المفتوح الشائعة في هذه المجالات, با في ذلك التقييم وقابلية 
التوسع» وأحدث المستجدات. 

يلخص الفصل الختامي المفاهيم الرئيسة الواردة في الكتاب» ويناقش المستجدات 
الحديثة في هذا المجال والمشكلات الرئيسة التي ما زالت تتطلب إيجاد حل لهاء وكذلك 
بعض التوقعات المستقبلية. 
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الفصل الثاني 
المعالجهة اللخوية 
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Y‏ -1 مقدمة 
هناك عدد من المهام اللغوية ذات المستوى المنخفض تشكل أساس خوارزميات 
معالجة اللغة الأكثر تعقيدًا. في بداية هذا الفصلء سنلقى الضوء على المنهجيات الرئيسة 
aic‏ مهام ما cola E‏ اليج ورم ارات ege‏ ا انات 
الطبيعية» وسنقوم بإعطاء أمثلة على بعض الأدوات الرئيسة مفتوحة المصدر. بعد ذلك 
سنشرح بمزيد من التفصيل ال مكونات المختلفة للمعالجة اللغوية التي تستخدم عادة في 
مسارات المهام» S‏ سنشرح دور هذه المعالجة المسبقة وأهميتها لتطبيقات الويب الدلالي. 
سنقوم أيضًا بوصف كل عنصر من عناصر مسارات المهام ووظيفته» وسنوضح كيف 
يرتبط بالمكونات السابقة ويبنى عليها. في كل مرحلة» سنقدم أمثلة على الأدوات 
وسنقوم بوصف أدائها النموذجيء إلى جانب بعض التحديات والصعوبات المحتملة 
المرتبطة بكل مكوّنء وسيناقش الفصل الثامن التعديلات المحددة التي يتم إدخاها 
على هذه الأدوات لتكييفها مع النصوص غير المعيارية مثل نصوص شبكات التواصل 

«uec I‏ وتحديدا تويتر. 


Y-Y‏ المنهجيات المتبعة في المعالجة اللغوية 

هناك نوعان رئيسان من المنهجيات المتبعة في مهام المعالجة اللغوية: أحدهما منهجية 
قائمة على المعرفة والآخر منهجية مبنية على التعلم» علا أنه يمكن أيضًا Lego‏ معًا. هناك 
مزايا وعيوب لكل منهجية» ملخصة في الجدول ٠-۲‏ . 

النيجية القاقمة'غل العرفة أو القاقية عل del gall‏ تعد من الأسالب الفا دة 
بصفة dale‏ وقد حلت محلها في كثير من الحالات منهجيات التعلم JYI‏ نظرًا لأن 
عملية معالجة كميات هائلة من البيانات بسرعة وكفاءة لم تعد تشكل معضلة بقدر ما 
كان الأمر عليه في الماضى . تستند المنهجية القائمة على المعرفة على قواعد مكتوبة يدويّاء 
QS (gd y‏ هذه التواعد tole‏ عل يد agentes‏ ف ciel cll iens ue‏ 
وتتطلب معرفة قواعد اللغة والمهارات اللغوية» فضلاً عن امتلاك ملكة البديهة. تكون 
هذه المنهجيات ذات فائدة أكبر إن أمكن تعريف المهمة بسهولة بواسطة القواعد 
(على سبيل المثال قاعدة: «الاسم الصحيح -في اللغة الإنجليزيّة- يبدأ Glo‏ بحرف 
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كبير))» وفي العادة» يمكن استثناء هذه القواعد بسهولة. عندما V‏ تنطبق القاعدة 
اللغوية بشكل مباشر تولد هذه المنهجية إشكالية أكبر من السابق (على سبيل المثال: 
في تغريدات تويتر غالبا لا يستخدم الناس الأحرف الكبيرة لكتابة الأسماء الصحيحة 
-في اللغة الإنجليزية-). من بين المزايا الكبيرة للمنهجية القائمة على المعرفة السهولة 
الكبيرة في فهم النتائج. عندما يتعرف النظام على شيء ما بشكل غير صحيح» يكون 
بوسع المطور التحقق من القواعد وتحديد سبب حدوث الخطأء ومن ثم يحتمل أن يكون 
بمقدوره تصحيح القواعد أو كتابة قواعد إضافية لحل المشكلة. ومع ذلك» يمكن أن 
تستهلك عملية كتابة القواعد الكثير من الوقت» وني حال حدوث تغيير في oll‏ فقد 
يضطر المطوّر إلى إعادة كتابة العديد من القواعد. 

منهجيات تعلم الآلة تحظى بشعبية أكبر في الآونة الأخيرة مع ظهور أجهزة قوية 
ومتطورة» وأيضًا بسبب عدم وجود ضرورة لامتلاك خبرة في المجال المعنِيٌ أو امتلاك 
معرفة لغوية. ولذلك أصبح بالإمكان أن ننشئ نظامًا خاضعًا للإشراف بسرعة كبيرة 
إذا توفرت بيانات تدريبية كافية» وبوسعنا الحصول على نتائج معقولة بعد تدريب محدود 
جدًا. غير أن الحصول على بيانات تدريبية كافية أو إنشاءها غالبا ما يطرح إشكالية كبيرة 
للغاية ويستغرق وقتا طويلاء ولا سيا إذا كان لا بذ من القيام بهذه العملية يدويا. يعني 
هذا الاعتماد على بيانات التدريب أيضًا أن التكيّف مع أنواع جديدة من النصوص أو 
المجالات أو اللغات سيكون مكلفًا على الأرجح. حيث يتطلب توفر قدر كبير من 
بيانات التدريب الجديدة. لذاء فإن القواعد التى يكون البشر قادرين على قراءتها عادة 
ما 55 0 أسمل ف الف مم اللفات وأتراع oa pali‏ الحديذة مقارية جلك il‏ 
على أساس النماذج الإحصائية. كا يمكن معالجة مشكلة توفر بيانات التدريب الكافية 
عبر الدمج بين التعلم الآلي والطرق غير الخاضعة أو شبه الخاضعة للإشراف: هذه 
الموضوعات ستناقش بشكل موسع في الفصلين الثالث والرابع» مع العلم أنها عادة ما 
تعطي نتائج أقل دقة مقارنة بنتائج التعلم الخاضع للإشراف. 
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الجدول pae: V7 Y‏ المنهج القائم على المعرفة في مقابل المنهج القائم على التعلم الآلي في ihlas‏ 


اللغات الطبيعية 
المنهج القائم على المعرفة أنظمة التعلم الآلي 

تقوم على قواعد مكتوبة يدويًا تستخدم علم الإحصاء أو أساليب التعلم الآلي 
الأخرى 

جرى تطويرها على يد متخصصين بمعالجة ١‏ لايتعين على المطورين أن يكونوا على دراية 

اللغات الطبيعية بمعالجة اللغات الطبيعية 

تستغل ملكة البديهة البشرية تتطلب كميات ضخمة من البيانات التدريبية 

نتائج سهلة الاستيعاب يصعب فهم أسباب وقوع الأخطاء 

قد تستهلك عملية التطوير وقتا طويلاً للغاية | عملية التطوير سهلة وسريعة 

قد تتطلب التغييرات إعادة LLS‏ القواعد قد تتطلب التغييرات عملية إعادة إضافة 
تعليقات وشروحات 


Y-Y‏ مسارات مهام معالحة اللغات الطبيعية 

تتألف مسارات مهام ما قبل معالجة اللغات الطبيعية إجمالا من المكونات التالية» كا 
هو مبين à‏ الشكل :-Y‏ 

تقطيع الكلمات Tokenization‏ . 

Sentence splitting Jal تقسيم‎ 

تصنيف أقسام الكلام .Part-of-speech tagging‏ 

.Morphological analysis التحليل الصرفي‎ 

.Parsing and chunking التحليل اللغوي 5 £; 5 النص‎ 


ayla‏ الكلمات acd‏ الجمل orm‏ المحثل الصرفي المحلل اللغوي 
je‏ " —4- به الكلام — 1 wey‏ 


الشكل :١1-7‏ نموذج مسارات مهام ما قبل المعالجة اللغوية. 
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عادة ما تكون المهمة الأولى تجزئة كلمات النص إلى قطع» تليها مهمة تقسيم الجمل» 
بمدف تقطيع النص إلى وحدات لغوية (تكون في العادة كلمات وأرقام وعلامات ترقيم 
والمسافات بين الكلمات) وحمل على التوالي. تضع مهمة تصنيف أقسام الكلام (POS)‏ 
كل جزء من أجزاء الجملة في فئة نحوية. عند التعامل مع نص متعدد اللغات مثل 
التغريدات» يمكن إضافة خطوة إضافية تتمثل في التعرف على اللغة قبل أن يتم ذلك» 
كما سنناقش في الفصل الثامن. التحليل الصرفي ليس إلزامياء لكنه غالبًا ما يستخدم 
ضمن مكونات مسارات cell‏ ويقوم بشكل أسامي بإيجاد جذر كل كلمة (وهو بذلك 
d‏ شكلاً أكثر تعقيدًا - إلى حد ما- من مهمة توليد جذع الكلمة أو مهمة التجذير (أي 
الحصول على جذر الكلمة). أخيرّاء يمكن استخدام أدوات تحليل و/ أو تقطيع أجزاء 
الكلمة بغية تحليل النص من الناحية التركيبية» وتحديد أمور من قبيل العبارات الاسمية 
والفعلية في حالة تقطيع النصء أو إجراء تحليل أكثر تفصيلا للبنية النحوية في حالة 
التحليل أو الإعراب اللغوي. 

في| يتعلق بمجموعات الأدوات» توفر منصة عمل Bae [4] GATE‏ من مكونات 
äl ll‏ اللغوية المسبقة مفتوحة المصدر بمو c‏ ترخيص .LGPL‏ ىا c yx‏ على 
مسارات مهام جاهزة يمكن استخدامها لاستخلاص المعلومات» تسمى ANNIE‏ 
وتضم LAÍ‏ عددًا كبيرًا من أدوات المعالجة اللغوية الإضافية مثل مجموعة مختارة من 
المحللات اللغوية المختلفة. وعلى الرغم من أن منصة GATE‏ توفر خاصية العمل مع 
المكونات القائمة على التعلم الآلي» إلا أن نظام ANNIE‏ يتبع منهجية مبنية على المعرفة 
آلية إضافة الملحقات أو المكونات الإضافية» با في ذلك مكونات من مسارات المهام 
الأخرى مثل أدوات Stanford CoreNLP‏ مكونات GATE‏ كلها مبنية بواسطة لغة 
البرمجة جافاء وهو ما يجعل عملية الدمج سهلة ويجعل المكونات غير محددة بمنصة 


Stanford CoreNLP‏ ]5[ أداة تضم مسارات مهام مفتوحة المصدرء وهي متاحة 


بموجب تر خيص GPL‏ ويمكنها أداء جميع مهام المعالجة اللغوية الأساسية المذكورة في 
هذا القسم» وذلك عبر واجهة برمجة تطبيقات بسيطة مكتوبة بلغة البرمجة جافا. إحدى 
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المزايا الرئيسة هذه الآداة أنه يمكن استخدامها في سطر الأوامر دون الحاجة إلى فهم 
أطر أكثر تعقيدًا مثل GATE‏ أو UIMA‏ وهذه البساطة» إلى جانب جودة النتائج 
العالية عمومًاء هي السبب في جعلها تستخدم على نطاق واسع عندما تكون المعلومات 
المطلوبة معلومات لغوية بسيطة مثل علامات تصنيف أقسام الكلام. كا هو الحال 
مع ANNIE‏ تعد معظم مكونات Stanford CoreNLP‏ مكونات مبنية على قواعد» 
باستثناء برنامج تصنيف أقسام الكلام. 

OpenNLP‏ أداة مفتوحة المصدر تستخدم لمعالجة اللغة وتعتمد على التعلم 
JYI‏ وتستخدم الإنتروبيا القصرى maximum entropy‏ والمصنفات المعتمدة Je‏ 
البيرسيبترونز (مستقبلات الشبكات العصبونية الاصطناعية). هذه الأداة متاحة Úle‏ 
بموجب ترخيص Apache‏ وکا هو الخال مع أداة «Stanford CoreNLP‏ يمكن 
تشغيل OpenNLP‏ على سطر الأوامر بواسطة واجهة برمجة تطبيقات بسيطة مكتوبة 
بلغة البرمجة جافا. وعلى الرغم من كون المكونات المختلفة الموجودة في الأجزاء الأخرى 
ضمن مسارات المهام تعتمد على أجزاء الجمل والجمل بشكل آساسي» o‏ هو JH‏ 
مع معظم مسارات المهام الأخرى. لكن يمكن تشغيل LS‏ النص إما قبل مجزئ 
الوحدات اللغوية أو بعده» وهو أمر غير معتاد نوعًا ما. 

NLTK‏ [6] أداة مفتوحة المصدر مكتوبة بلغة بايثون (python)‏ وهي متاحة 
بموجب رخصة Apache‏ وتحظى بشعبية كبيرة LA‏ بسبب بساطتها وواجهة 
المستخدم الخطية» خصوصًا عندما لا تكون هناك حاجة لوجود الآدوات المبنية على 
لغة جافا. توفر هذه الأداة كذلك عددًا من الأشكال المختلفة لبعض المكونات» سواءٌ 
أكانت مكونات مبنية على القواعد el‏ مبنية على التعلم JYI‏ 

في باقي أجزاء هذا الفصل» سنقوم بشرح مكونات مسارات المهام الفردية بمزيد من 
التفصيل» وذلك باستخدام الأدوات ذات الصلة الموجودة في خطوط الأنابيب كأمثلة. 


1- http:;//opennlp.apache.org/index.html 
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٤-۲‏ تقطيع كلات النص 

تجزئة كلمات نص إلى قطع هي مهمة تقسيم النص all‏ إلى وحدات بسيطة cer‏ 
تدعى الوحدات اللغوية (tokens)‏ وهذه الوحدات تشير عمومًا إلى الكلمات والأرقام 
والرموز» وعادة ما يتم فصلها بواسطة المسافة البيضاء ء في اللغة الإنجليزية. تجرئة 
الوحدات اللغوية خطوة مطلوبة في جميع تطبيقات المعالجة اللغوية OM G‏ 
الخوارزميات الأكثر تعقيدًا مثل خوارزميات تصنيف أقسام الكلام» تتطلب في الغالب 
وجود هذه الوحدات كمدخلات لماء بدلا من استخدام النص el‏ . وبناءً على ذلك» 

من المهم استخدام مجزئ وحدات لغوية ذي جودة عالية» لأنه من المرجح أن تؤثر 
الأخطاء على نتائج جميع مكونات معالجة اللغات الطبيعية التي GU‏ في مرحلة لاحقة 
من مراحل مسارات المهام. تشمل أنواع الوحدات اللغوية الشائعة الأرقام والرموز 
(على سبيل المثال: 5 و (CJ.‏ وعلامات الترقيم» والكلات على اختلاف أنواعهاء على 
سبيل المثال» الكلمات المكتوبة بالأحرف الكبيرة والصغيرة والكلمات المكتوبة بأحرف 
ختلفة الحالة -في اللغة الإنجليزيّة -. يُظهر الرسم التوضيحي جملة مقطّعة في الشكل 
۲-۲» حيث يشير كل مستطيل وردي إلى وحدة لغوية. 


سباق 3Jl‏ 5 
عن | كن هناك 250 das‏ الكترونية 


[| | NETZ 
رسم توضيحي لجملة مجزأة إلى وحدات لغوية.‎ IY 7 Y الشكل‎ 

قد تضيف برامج تجزئة الوحدات اللغوية عددًا من الخصائص التي تصف الوحدة 

اللغوية. تشمل هذه الخصائص التفاصيل المتعلقة بأسلوب الإملاء (على سبيل المثال: ما 
إذا كانت حالة الأحرف كبيرة أو لا -في اللغة الإنجليزيّة-)» ومعلومات إضافية حول 
نوع الوحدة (سواء أكانت كلمة آم رقا أم إحدى علامات الترقيم» وما إلى ذلك). (S‏ 
يمكن للمكونات الأخرى إضافة خصائص إلى تعليقات وشروحات الوحدات اللغوية 
الموجودة ÉL‏ مثل التصنيف النحوي للوحدة وتفاصيلها الصرفية» وأي تنظيف أو 
ضبط (مثل تصحيح كلمة خاطئة). سيرد وصف هذه الأمور في الأقسام والفصول 
اللاحقة. يبين الشكل Y- Y‏ وحدة لغوية تشير إلى كلمة جرائم (offences)‏ المذكورة 
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في المثال السابق مع إضافة بعض الخصائص منها: نوع الوحدة اللغوية هو كلمة» ويبلغ 
طوطا ۸ أحرف -باللغة الإنجليزيّة - وتستخدم الأحرف الصغيرة في طريقة الإملاء. 

بشكل عام» تجزئة كلمات نص مكتوب بشكل جيد إلى وحدات لغوية تُعد عملية 
موثوقة ويمكن إعادة استخدامهاء وذلك بسبب Gs gS‏ ذات طبيعة تميل إلى عدم المحدودية 
بنطاق أو مجال معين. ومع ذلكء فإن برامج تجزئة الوحدات اللغوية من هذا القبيل 
ذات الاستخدامات المتعددة تتطلب عادة أن يتم تكييفها لكي تعمل بشكل صحيح مع 
أشياء مثل الصيغ الكيميائية ورسائل تويتر وغيرها من أنواع النصوص التي تتسم بقدر 
أكبر من الخصوصية. تشمل الحالات الأخرى غير القياسية الكلمات الموصولة بواصلة 
في اللغة الإنجليزية» والتي تُعامل من قبل بعض الأدوات كوحدة لغوية واحدة, بين 
تعاملها أدوات أخرى على آنا ثلاث وحدات (أي الكلمتان الموصولتان» بالإضافة إلى 
الواصلة نفسها). تقوم بعض النظم أيضًا بعملية تقطيع للوحدات اللغوية بشكل أكثر 
تعقيدًا من ذلك» حيث تأخذ بعين الاعتبار تركيبات الأعداد مثل التواريخ والأوقات 
(على سبيل المثال: التعامل مع ٠:١‏ كوحدة واحدة). هناك أدوات أخرى تترك 
هذه المهمة لمكونات أخرى في مراحل لاحقة ضمن مسار المعالجة اللغوية» مثل عنصر 
التعرف على كيانات الأساء. هناك مسألة أخرى تتعلق بالفاصلة العليا: على سبيل 
ا مخال» في الحالات التي يتم فيها استخدام الفاصلة العليا للدلالة على حرف مفقود 
وتجمع بذلك من الناحية العملية بين كلمتين من دون وجود مسافة بينهماء مثل it's‏ 
باللغة الإنجليزية» أو l'homme‏ باللغة الفرنسية. في المقابل» تعاني الأساء المركبة في 
اللغة الألمانية من عكس هذه المشكلة» حيث يمكن كتابة العديد من الكلمات معًا من 
دون مسافة. بالنسبة لمقطعات الوحدات اللغوية الألمانية» OB‏ وجود وحدة إضافية 
تقسم التركيبات اللغوية إلى أجزائها المكونة قد يكون مفيدًا de‏ ولا سيا لأغراض 
الاسترجاع. تعد وحدة التجزئة الإضافية هذه بالغة الأهمية أيضًا لرسم حدود الكلمات 
عندما يتعلق الأمر بالعديد من لغات شرق آسيا مثل الصينية» التي لا يوجد فيها مفهوم 
المسافات بين الكلمات. 


—£o- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn————X" — 0) )(—‏ 


سياق الد 5 nisus‏ 
UCM‏ كان هناك 250 جريمة الكترونية 


| || | --— 


الفئة NSS‏ - اسم» cA‏ 
النوع كلمة 
الطول A‏ -باللغة الإنجليزيّة 
التهجئة أحرف صغيرة 
سلسلة offences e$‏ - جرائم 


الشكل :"-١‏ رسم توضيحي لجملة مجزأة إلى وحدات لغوية. 

بسبب كون عملية تقطيع كلمات النص تتبع بشكل عام مجموعة صارمة من القيود 
التي تحدد ما الذي يشكل وحدة لغويةء إلا أنه كثيرًا ما يجري استخدام أساليب المطابقة 
القائمة على الأنم|ط في هذه الآدوات» على الرغم من أن بعض الأدوات تستخدم مناهج 
أخرى. تعد أداة تجزئة الوحدات اللغوية OpenNLP TokenizerME‏ » على سبيل 
المثال» مقطع بنظرية التحول نحو الحد الأقصى قابل للتدريب» وتستخدم نموذجًا 
إحصاتيًاء استنادًا إلى مكنز تدريبي» Que‏ أنه يمكن إعادة التدريب باستخدام مكنز 
جديد. 

تعتمد أداة تجزئة الوحدات اللغوية ANNIE Tokenizer‏ الخاصة بمنصة GATE‏ 
على مجموعة من قواعد التعبيرات القياسية التي يتم ترجمتها بعد ذلك إلى آلة DYH‏ 
المحدودة finite-state machine‏ يختلف هذا tsal‏ إلى حد ما عن معظم cob s‏ 
الأخرى في أن كونه يحقق أقصى حد ممكن من الكفاءة عن طريق إجراء idla‏ خفيفة 
جذاء ويوفر مرونة أكبر عن طريق وضع عبء القيام بعمليات المعالجة الأعمق على 


1- http:;/Aincubator.apache.org/opennlp/documentation/manual/opennlp.html 


2- http://gate.ac.uk 
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المكونات الأخرى في وقت لاحق في مسارات المهام التي تعد أكثر قدرة على التكيف. 
يستند الإصدار العام ANNIE ts fel‏ على معيار التشفير الموحد يونيكود"» ويمكن 
استخدامه في أي لغة توجد فيها مفاهيم مماثلة للوحدات اللغوية والمساحات البيضاء 
الموجودة في الإنجليزية (أي معظم اللغات الغربية). يمكن أيضًا تكييف المقطع ليلائم 
لغات مختلفة إما عن طريق تعديل القواعد الموجودة» أو عن طريق إضافة بعض 
القواعد الإضافية في مرحلة ما بعد المعالجة. بالنسبة للغة الإنجليزية» هناك مجموعة 
متخصصة من القواعد» وتتعامل هذه القواعد بشكل رئيس مع استخدام الفواصل 
العليا في olds‏ مثل -«don'D‏ 

تعد 26نهه »101 78118" أداة تقطيع تتميز بالكفاءة والسرعة وتعطي نتائج قطعية» 
وتشكل جزءًا من مجموعة أدوات Stanford CoreNLP‏ وقد صممت هذه الأداة à‏ 
البداية لمحاكاة أداة التجزئة الخاصة CTreebank 3 (PTB)‏ ومن هنا جاء اسمه. مثل 
ANNIE‏ حيث تعمل هذه الأداة بشكل جيد مع اللغة الإنجليزية واللغات الغربية 
الأخرى؛ لكنها تعمل بأفضل صورة عند التعامل مع النصوص الرسمية. وعلى الرغم 
من كونها قطعية النتائج» إلا أنها تستخدم بعض الاستدلالات الجيدة جذاء لذلك وكا 
هو الحال مع «il (ANNIE ts jall‏ يمكن للمقطع PTBTokenizer‏ أن يقرر عندما 
تكون علامات الاقتباس المفردة جزءًا من الكلمة» وعندما تعني نقطة النهاية أنه تم 
الوصول إلى حدود الجملة» وما إلى ذلك. کا يمكن أيضًا تخصيصه بشكل كامل» من 
حيث وجود عددٍ من الخيارات التي يمكن تعديلها. 

توجد في أداة711112 أيضًا العديد من المجزئات الماثلة ل81712115, أحد هذه 
coti Sel‏ يعتمد على التعبيرات القياسية» ونشير إلى أن NLTK‏ مصمة بلغة بايثون. 


http://www.unicode.org/standard/W hatIsUnicode.html لفهم معيار التشفير الموحد )4 $5 (( انظر:‎ -١ 
2- http://nlp.stanford.edu/software/tokenizer.shtml 
3- http://www.nltk.org/ 
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uui‏ الجمل (أو تقسيم الجمل) هي مهمة تقسيم النص إلى الجمل المكونة له» وعادة 
تشتمل هذه المهمة على تحديد ما إذا كانت علامات الترقيم» مثل نقطة النهاية والفواصل 
وعلامات التعجب وعلامات الاستفهامء dus‏ على نهاية الجملة أو على شيء آخر 
(الكلام المقتبس» الاختصارات» وما إلى ذلك). تستخدم معظم مقطعات الجمل قوائم 
الاختصارات للمساعدة في تحديد هذا الأمر: تدل نقطة النهاية عادة على نهاية الجملة ما 
م تأتِ بعد اختصار مثل السيد. (Mr)‏ أو توجد داخل علامات اقتباس. تشمل الأمور 
الأخرى تحديد بناء الجملة عند استخدام فواصل الأسطرء على سبيل المثال في العنوانات 
أو في القوائم النقطية. تختلف مقسّمات الجمل في كيفية تعاملها مع هذه الأمور. 

تنشأ حالات أكثر تعقيدًا عندما يحتوي النص على جدّاول أو عنوانات أو معادلات 
أو غيرها من علامات التنسيق: عادة ما تكون هذه العناصر هى المصدر الأكبر للأخطاء. 
تتجاهل بعض مقسّمات الجمل هذه الا cell y «oU‏ أن تدل علامات الترقيم 
على الحدود الفاصلة بين الجمل. كما تستخدم مقسّمات جمل أخرى سطرين متتاليين 
جديدين أو الضغط على مفتاح الإدخال Center /return)‏ كمؤشر على ile‏ الجملة» 
في حين توجد أيضًا حالاتٌ يدل فيها سطرٌ جديد واحد أو ضغطة واحدة على مفتاح 
الإدخال على ile‏ الجملة (على سبيل المثال: التعليقات الموجودة داخل الرموز البرمجية 
أو القوائم النقطية / المرقمة التي تضم عنصرًا أو مُدخلاً واحدًا في كل سطر). يوفر 
مقسّم الجمل ANNIE‏ الخاص بمنصة عمل GATE‏ في الواقع عدة بدائل من أجل 
ce‏ للمستخدم باتخاذ قرار بشأن الحل الأنسب للنص المحدد الموجود بين يديه. 
تعد علامات التنسيق (à‏ لغة HTML‏ وعلامات التصنيف أو الوسوم (hash tags)‏ 
المستخدمة في تويتر وبناء الجمل في المواقع التعاونية المعتمدة على مساهمة المستخدمين 
cGwiki)‏ وغير ذلك من أنواع النصوص الخاصة مشكلة إلى حد ما لمقسّمات الجمل 
المتعددة الاستخدامات والتي تم تدريبها على مكانز خالية من الأخطاء» كنصوص 
الصحف. لاحظ أنه في بعض الأحيان يتم إجراء مهمتي تجزيء الجمل وتقسيم الجمل 
بيني والح Maa‏ من idol y cell on]‏ تان MI‏ 5,8« 
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تستفيد مقسّمات الجمل في العادة من نصوص سبق تجزيئها. يستخدم مقسّم الجمل 
ANNIE‏ من GATE‏ المنهج المعتمد على القواعد والمستند بدوره على أناط كتابة قواعد 
لغة ]7[ JAPE GATE's‏ تستند هذه القواعد CIS‏ على المعلومات التي ينتجها مقطع 
الوحدات اللغوية وبعض القوائم التي تضم الاختصارات الشائعة» ويمكن تعديلها 
بسهولة عند الضرورة. تتوفر هذه المقسّمات في صيغ عديدة» كا أوردنا ذلك سابقا. 

على عكس | ANNIE‏ يعمل phis‏ الجمل OpenNLP‏ عادة قبل مقطع الوحدات 
اللغوية» ويستخدم نهج التعلم «AA‏ مع كون الناذج المزودة متدربة على نص غير 
مجزأ إلى وحدات لغوية» على الرغم من أنه من الممكن أيضًا تجزئة النص أولاء ليقوم 
مقسّم الجمل بعد ذلك بمعالحة النص المقطع مسبقا. هناك عيب واحد في مقسّم الجمل 
OpenNLP‏ وهو عدم قدرته على تحديد الحدود الفاصلة بين الجمل استنادًا إلى حتويات 
الجملة» ما قد يسبب وقوع أخطاء في المقالات التي ها عنوانات لأنه يتم تحديدها بصورة 
خاطئة على أنها تشكل جزءًا من الجملة الأولى. 

يستخدم NLTK‏ مقسّم الجمل Punkt‏ [8]» حيث يستخدم هذا البرنامج Ung‏ 
مستقل اللغة وغير خاضع للإشراف في تحديد الحدود الفاصلة بين الجمل» استنادًا إلى 
تحديد الاختصارات والأحرف الأولى والأعداد الترتيبية. خلافا لمعظم مقسّمات الجمل» 
لا تعتمد عملية الكشف عن الاختصارات في هذا المقسّم على قوائم تم تجميعها مسبقاء 
بل تعتمد بدلاً من ذلك على أساليب الكشف عن المتلازمات اللفظية مثل لوغاريتم 
الاحتال .(log-likelihood)‏ 

تستفيد أداة Stanford CoreNLP‏ من النصوص المجزأة إلى وحدات لغوية 
ومجموعة من أشجار القرارات الثنائية باتخاذ قرار بشأن مواقع الحدود الفاصلة بين 
الجمل. وكا هو JI‏ مع مقسّم الجمل ANNIE‏ تكمن المشكلة الرئيسة في محاولة 
اتخاذ قرار فيا إذا كانت نقطة النهاية تدل على نهاية جملة أم لا. 

في بعض الدراسات» سجل مقسّم الجمل الخاص ب Stanford‏ أعلى دقة من بين 
سائر البرامج الشائعة لتقسيم الجملء على الرغم من أن الآداء سوف يختلف من حالة 
لأخرى بالطبع تبعًا لطبيعة النص. تسجل مقسّمات الجمل الحديثة كالتي ذكرت آنفا 
أعلى دقة بنسب تتراوح بين AAT A0‏ عند العمل على النصوص المكتوبة بشكل جيد. 
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LS‏ هو J‏ مع معظم أدوات المعالجة اللغوية» يوجد لدى كل مقسّم للجمل نقاط 
قوة ونقاط ضعف. وهي غالبا ما ترتبط بخصائص محددة في النص؛ على سبيل «JUI‏ 
قد تعطي بعض مقسّمات الجمل أداءً أفضل عند التعامل مع الاختصارات» في حين قد 
يكون أداؤها أسوأ عند التعامل مع الكلام المقتبس. 


٦-۲‏ تصنيف أقسام الكلام 

يعنى تصنيف أقسام الكلام (POS)‏ بوضع علامات على الكلمات تشير إلى تصنيف 
الكلام الذي تنتمي إليه» على سبيل المثال» الأسماء والأفعال والصفات. تنقسم هذه 
الفئات اللغوية الأساسية عادة إلى أصناف دقيقة» حيث تميز هذه الأصناف على سبيل 
المثال بين الأسماء المفردة وأساء الجمع وأزمنة الأفعال. بالنسبة للغات الأخرى غير 
الإنجليزية» يمكن أيضًا إدراج الجنس في التصنيف. تعد مجموعة التصنيفات الممكنة 
التي يجرى استخدامها أمرًا بالغ الأهمية وتختلف باختلاف الأدوات المستخدمة في 
التصنيف» وهو ما يجعل قابلية التشغيل البينى بين الأنظمة المختلفة مهمة صعبة. من 
بين التصنيفات الشائعة جدًا في اللغة الإنجليزية (PTB) Penn Treebank‏ ]9[ 
وتشمل التصنيفات الشائعة الأخرى تلك المستمدة من مكنز براون (Brown)‏ ]10[ 
ومكنز LOB‏ (لانكستر - أوسلو / بيرغن) [11]» على التوالي. oes‏ الشكل ٤-۲‏ مثالاً 
على بعض النصوص المصنفة وفقا لتصنيف أقسام الكلام» باستخدام تصنيفات مكنز 
8 (ملحوظة: لا يحتوي المكنز على اللغة العربية» وهذا المثال بعد ترجمته من اللغة 
الإنجليزيّة). 


سباق ال ا 
ETAR‏ كان هناك 250 جريمة الكترونية 
١‏ 


[ww || ows ]l][mx]|ve | | فصع‎ 

الشكل :٤-۲‏ رسم توضيحي ilad‏ مصنفة Us‏ لتصنيف أقسام الكلام. 

تحديد تصنيف قسم الكلام لا يتم بأخذ الكلمة نفسها في الاعتبار فحسب» بل 
أيضًا من خلال السياق الذي تظهر فيه» والسبب هو أن العديد من الكلمات غامضة» 
والرجوع إلى المعجم لا يعد GS‏ لحل هذه المشكلة. على سبيل المثال» يمكن أن تكون 
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كلمة E] love‏ اس أو Fla S‏ على السياق ) جملة «أحب السمك» مقابل جملة 
«الحب هو كل ما تحتاجه)). 

تستخدم أدوات تصنيف أقسام الكلام عادة منهجيات التعلم gI‏ لأنه من الصعب 
جذا وصف جميع القواعد اللازمة لتحديد التصنيف الصحيح في ضوء سياق معين 
(بالرغم من استخدام الأساليب التي تعتمد على القواعد). تستخدم بعض المنهجيات 
الأكثر شيوعا ونجاحًا نماذج ماركوف المخفية (HMMS)‏ أو منهجية التحول القصوى. 
نعل مُصيف Brill‏ التحويلي الذي يعتمد على القواعد ]12 والذي يستخدم تصنيفات 
PTB‏ من coal‏ الأكثر شهرة التي تستخدم في العديد من مجموعات أدوات معالحة 
اللغات الطبيعية الرئيسة. يستخدم ues Brill cinah‏ افتراضيًا ومجموعة قواعد 
مستقاة من مجموعة كبيرة من البيانات التدريبية عن طريق التعلم الآلي. وبالمثل» OB‏ 
مُصنف OpenNLP‏ يستخدم أيضًا نموذجًا تم تدريبه من مكنز بهدف التنبؤ بالتصنيف 
الصحيح لقسم الكلام وفقا لتصنيفات PTB‏ يمكن أيضًا تدريبه إما بواسطة التحول 
القصوى أو بواسطة نموذج معتمد على البيرسيبترونز .(Perceptron-based model)‏ 
يستند Stanford cinah‏ لتحديد أقسام الكلام أيضًا على منهجية التحول الأقصى 
]13[ ويستخدم تصنيفات .PTB‏ يعد (Trigrams'n'Tags) TNT cinah‏ ]14[ 
Gah‏ إحصائيًا سريعًا وفعالاًء ويستخدم تطبيق خوارزمية فيتربي (Viterbi)‏ لنماذج 
ماركوف من الدرجة الثانية. 

من ناحية أدوات معالجة اللغات الطبيعية الرئيسة» يوجد لدى بعضها (مثل 
(Stanford CoreNLP‏ مصنفات أقسام الكلام الخاصة de‏ کا هو موضح coe‏ 
في حين يستخدم بعضهم الآخر تطبيقات موجودة بالفعل أو صيغا مغايرة من هذه 
التطبيقات. على سبيل JEU‏ يستخدم NLTK‏ تطبيقات مبنية على AX‏ بايثون cial‏ 
cias s Brill‏ ستانفورد ومُصيف S TNT‏ يعد مُصيْف أقسام الكلام الإنجليزي 
الخاص بنظام ANNIE‏ التابعة لمنصة GATE‏ ]15[ نسخة معدلة من مُصيف Brill‏ 
جرى ري على مكنز كبير مأخوذ من أرشيف صحيفة وول ستريت جورنال. يقوم 
هذا المصيف بإصدار تصنيف لقسم الكلام على شكل إضافة تعليق وشرح لكل كلمة 
أو رمز. من بين المزايا الكبيرة هذا المصييف إمكانية تعديل المعجم يدويا بسهولة عن 
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طريق إضافة cols‏ جديدة أو تغيير قيمة التصنيفات المحتملة المرتبطة بكلمة ما أو 
ترتيب هذه التصنيفات. يمكن أيضًا إعادة تدريب الصيف على مكنز جديد» على الرغم 
من أن هذا الأمر يتطلب مجموعة كبيرة من النصوص الُصنفة مسبقًا في نطاق/ نوع ذي 
صلة» وهو ما لا يمكن إيجاده بسهولة. 

عادة ما تكون دقة هذه المصيفات متعددة الاستعالات والتى يمكن إعادة استخدامها 
متازة )97-98/( عندما تستخدم مع نصوص مائلة لتلك التي تم ERR TO:‏ 
عليها (المقالات الإخبارية في الغالب). ومع ذلك. فإن الدقة يمكن أن تضعف بشكل 
كبير جدا عند تعاملها مع DYE‏ وأنواع جديدة من النصوص» أو بيانات تحوي قدرا 
أكبر من التشويش» مثل نصوص شبكات التواصل الاجتهاعي» وهو ما قد يترك تأثيرًا 
خطيرًا على العمليات الأخرى التي تأتي لاحقا ضمن مسارات المهام» مثل تمييز كيانات 
الأسماء» وتعلم الكيانات المعجمية عن طريق BEYI‏ المعجمية النحوية» واستخلاص 
العلاقات والآحداث» وحتى مهام تعدين الآراء» وكلها تحتاج إلى تصنيفات لأقسام 
الكلام يمكن الوثوق بها لكي تعطي نتائج عالية الجودة. 


v-Y‏ التحليل الصرني 

يتعلق التحليل الصرفي بشكل أسامى بالتعرف على الوحدات اللغوية داخل الكلمة 
وتضعيفهاء ريت غادة تيزئة الكلمة إل الجلرمم السوابق واللواحق» عل سيل ألا 
يتكون الفعل walked‏ من الجذر walk‏ واللاحقة 60-. ينطبق التحليل الصرفي في اللغة 
الإنجليزية على الأفعال والأسماء. والسبب هو أن الأفعال والأسماء قد تظهر في النص 
في صيغة أشكال مختلفة تنشأ بفعل الصرف الإعرابي. يشير مصطلح الصرف الإعرابي 
إلى الأشكال المختلفة للكلمات التي تعكس المزاج وأزمنة الفعل والعدد وما شابه» مثل 
صيغة الماضي لفعل ما أو صيغة الجمع لاسم معين. يظهر الصرف في اللغة الإنجليزية 
عادة عن طريق إضافة لاحقة إلى جذر الكلمة (على سبيل المثال: «box walked walk‏ 
f (boxes‏ عن طريق التعديلات الداخلية الأخرى مثل تغيير الحروف المتحركة de)‏ 
سبيل المثال: -(geese «goose cran crun‏ في اللغات الأخرى» يمكن استخدام السوابق 
(إضافة مقطع في بداية الكلمة) أو المتوسطات (إضافة مقطع في وسط الكلمة)ء إلى 
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جانب تغيبرات أخرى. تعرض بعض أدوات التحليل الصرفي هذه التعديلات الداخلية 
على شكل تثيلات بديلة للاحقة الافتراضية. نعني بذلك أنه إذا كانت صيغة الجمع 
لاسم ما تُعرض عادة بإضافة اللاحقة 5 فإن الصيغة التي تعرضها أداة التحليل الصرفي 
ستكون اللاحقة -5 حتى في حال صيغ الجمع من قبيل geese‏ من الناحية الفعليةء 
تعامل الأداة ببساطة الصيغة التى طرأ فيها تغيبر غير اعتيادي على الحروف المتحركة 
كنوع من المتغير السطحي ded‏ للسابقة أو اللاحقة المعيارية [أي اللاحقة المستخدمة 
عادة وهي إضافة 75 في نباية الكلمة]. على سبيل المثال» يعرض المحلل الصرفي الخاص 
بمنصة GATE‏ كلمة geese‏ على أنها مكونة من الجذر goose‏ واللاحقة و-. 

في العادة» تتعامل أدوات معالجحة اللغة الطبيعية التي تقوم بإجراء التحليل الصرفي 
مع الصرف الإعرابي فقط» ك| شر حنا أعلاه» لكنها لا تقوم بإجراء الصرف الاشتقاقي. 
الاشتقاق هو عملية استخراج أصغر وحدات لغوية ذات معنى (morphemes)‏ وهو 
ما ينشئ كلمة جديدة من الكلمات الموجودة» وعادة يشمل ذلك تغييرًا في التصنيف 
النحوي (على سبيل المثال: إنشاء الاسم worker‏ [عامل ] من الفعل work‏ [عمل]ء أو 
الاسم loudness‏ [صخب] من الصفة loud‏ [صاخب]). 

في كثير من الأحيان» تكون أدوات التحليل الصرفي في اللغة الإنجليزية معتمدة 
على القواعد» وذلك لأن غالبية الأشكال الإعرابية ees‏ قواعد blefs‏ نحوية de)‏ 
سبيل المثال: أسماء الجمع تُنشأ عادة عن طريق إضافة s-‏ أو es-‏ نهاية صيغة ا مغرد). 
يمكن أيضًا معالجة الاستثناءات بسهولة كبيرة بواسطة القواعد» كا يمكن الافتراض 
أن الكلمات المجهولة تتبع القواعد الافتراضية. المحلل الصرفي في منصة عمل GATE‏ 
مبني على القواعد» حيث تدعم لغة القواعد (flex)‏ القواعد والمتغيرات التي يمكن 
استخدامها في التعابير النمطية. يمكن LAT‏ أخذ بطاقات تصنيف أقسام الكلام في 
الحسبان إن كان ذلك مرغوبًا فيه» liag‏ يعتمد على عامل الإعداد. تكون مُدخلات 
المحلل الصرفي على شكل مستند مجزأء ويقوم بتحليل وحدة لغوية واحدة إلى جانب 
بطاقة تصنيف أقسام الكلام الخاصة بها في كل مرة» ومن ثمٌّ يحدد جذر الكلمة وكذلك 
السابقة أو اللاحقة المضافة إليها. بعد ذلك تضاف هذه القيم إلى بطاقة تصنيف أقسام 
الكلام كخصائص. 
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تستخدم أداة Standford‏ الصرفية أيضًا منهجية معتمدة على القواعد» وتستند 
على Je‏ آلات محدودة (finite-state transducer)‏ وهى مكتوبة بلغة .flex‏ لكنها 
وبعكس GATE ill‏ الصرفية» تتطلب استخدام clt,‏ تصنيف أجزاء الكلام 
بالإضافة إلى الوحدات اللغوية» كما Ll‏ يتولد منها كلمات من دون زوائد وترجع إلى 
أصلها المعجمي (lemmas)‏ بدلا من أن تكون على شكل سوابق ولواحق. 

توفر NLTK.‏ تطبيقا لتحليل لغوي يعتمد على خاصية igali morphy‏ في نظام 
WordNet . WordNet‏ ]16[ هو عبارة عن قاعدة بيانات معجمية إنجليزية شبيهة 
بقاموس أو موسوعة مفردات» حيث يتم تصنيف الأساء والأفعال والصفات 
وظروف الأحوال إلى مجموعات من المترادفات المعرفية «(Synsets)‏ تعبر كل واحدة 
منها عن فكرة أو مفهوم معين. ترتبط المترادفات المعرفية بواسطة علاقات معرفية- 
دلالية ومعجمية. صممت خاصية morphy‏ لكي تتيح للمستخدمين البحث عن شكل 
صرف لكلمة ما مقارنة بشكلها الجذري المدرج في قاعدة بيانات WordNet‏ المعجمية» 
وتتبع أسلوبًا Ga‏ على القواعد يضم قوائم تحتوي على نهايات صرفية أو إعرابية» وذلك 
استنادًا إلى التصنيف النحوي للكلمة» كا تستخدم قائمة استثناءات خاصة JS‏ تصنيف 
نحوي يتم البحث فيها عن الصيغة الصرفية. 5 5( هو JL‏ مع أداة Stanford‏ تكون 
نتيجة البحث عبارة عن جذر الكلمة فقط وليس السابقة أو اللاحقة. أضف إلى ذلك 
Ul‏ قادرة على معالجة الكلمات الموجودة داخل معجم WordNet‏ فقط. 


لا OpenNLP. à s‏ في الوقت الراهن أي أدوات لإجراء التحليل الصرفي. 


۱-۷-۲ اشتقاق جذع الكلمة 

تنتج أدوات اشتقاق جذع الكلمة الشكل الجذعي لكل كلمة» على سبيل JUL‏ تشترك 
الكلمتان drivers ; driving‏ في kè cdrive eH‏ يميل التحليل الصرفي إلى إنتاج 
الأشكال الجذرية للكلمات إضافة إلى سوابقها و/ أو لواحقهاء على سبيل drive JEU‏ و 
للأمثلة السابقة» إضافة إلى اللاحقتين cing‏ و5- على التوالي. هناك حيرة كبيرة 
حول الفرق بين توليد جذع الكلمة والتحليل الصرفي» وذلك بسبب التباينات الكبيرة 
التي يمكن أن توجد بين أدوات توليد جذع الكلمة في طريقة عملها وفي البيانات 
الصادرة منها. بصفة عامة» لا تحاول أدوات توليد جذع الكلمة إجراء تحليل لأصل 
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أو جذع الكلمة ولاحقتهاء بل تقوم ببساطة بتجريد الكلمة من لاحقتها وإرجاعها إلى 
الجذع. تتمثل الطريقة الرئيسة التي تختلف فيها أدوات توليد جذع الكلمة بعضها عن 
بعض في وجود أو غياب الشرط المقيّد الذي يتطلب أن يكون الشكل الجذعي عبارة 
عن كلما dxI iae e e‏ لعي تقرع LaL AI ISI plas ui Lee‏ 
بإزالة اللاحقة» على سبيل المثال» تتم إزالة اللاحقة -ing‏ من كلمة driving‏ لتصبح 
-17تك. في أغلب coU MI‏ لا يتم الإبقاء على التمييز بين الأفعال esee ME s‏ لذا JU‏ 
اللاحقتان من كلمتى driving s driver‏ لتتحول كلتاهما إلى الشكل الجذري .driv-‏ 
pm cal zal Jac‏ المعلومات c JUI IR)‏ :هذا ارمع من l3 s gl MV]‏ 
لأنه يمكن إتمامه بواسطة خوارزمية بسيطة ولا يتطلب مهام المعالحة اللخوية الأخرى 
كتصنيف أجزاء الكلام. تعد عملية اشتقاق جذع الكلمة مفيدة لأنظمة استرجاع 
المعلومات نظرًا لكونها تجمع بين الأشكال المعجمية-النحوية لكلمة ما تشترك جيعًا 
في المعنى (وبذلك يصبح بالإمكان استخدام صيغة المفرد أو صيغة الجمع خلال عملية 
البحثء لتتطابق نتيجة البحث مع إحدى الصيغتين داخل صفحة الويب). لاحظ أنه 
É s‏ لمعظم أدوات التحليل الصرفي» يمكن أن تأخذ أدوات اشتقاق جذع الكلمة في 
الحسبان الأشكال الناشئة عن عمليات الصرف الاشتقاقى» وذلك لأنها تتجاهل الفئة 
النحوية للكلمة. هناك فرق آخرء وهو أن أدوات توليد جذع الكلمة لا تنظر إلى السياق 
المحيط بالكلمة» بل تنظر فقط إلى الكلمة وحدها بمعزل عن السياق» eas‏ يمكن أن 
تأخذ أدوات التحليل الصرفي السياق بعين الاعتبار أيضًا. 

بين الشكل 5-7 مثالاً يدل على الطرق المحتملة التي يمكن أن تختلف فيها عملية 
توليد جذع الكلمة عن التحليل الصرفي. تقوم أداة توليد جذع الكلمة الموجودة في 
منصة عمل GATE‏ بإزالة اللاحقة الاشتقاقية -ness‏ وهو ما يختزل صيغة الاسم 
95 في صيغة الصفة KS doud‏ يتضح من خاصية stem‏ (الجذع) في الجدول 
أدناه. على الجانب الآخرء لا تبتم أداة التحليل الصرفي بالصرف الاشتقاقي» وتدع 
الكلمة کا هي بالكامل» KS‏ هو موضح في خاصية (loudness yit | (root‏ من دون 
إنتاج أي لاحقة. 
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The loudness of the music was intolerable 


E BESBI‏ الا 


اللاحقة 
الفئة NNS‏ 
النوع كلمة 
الطول ^ 
التهجئة أحرف صغيرة 
الجذر loudness‏ 
الجذع loud‏ 
سلسلة الأحر ف loudness‏ 


الشكل Y‏ 107 مقارنة بين توليد جذع الكلمة والتحليل الصرفي في منصة عمل 6۸۲۴ . 

قد تختلف خوار زميات إزالة اللواحق في نتائجها لأسباب عدة. أحد هذه الأسباب 
يتمثل فيا إذا كانت الخوارزمية تتطلب أن تكون الكلمة الناتجة كلمة حقيقية موجودة 
في اللغة المعنية. لا تتطلب بعض المنهجيات أن تكون الكلمة موجودة في واقع الأمر في 
معجم اللغة (ونقصد به جميع الكلمات الموجودة في اللغة). 

du‏ منهج Porter Stemmer‏ ]17[ أشهر خوارزميات توليد جذع الكلمة» وقد 
صممت بصيغ وأشكال عديدة. ونظرًا للمشكلات التي نجمت عن إنشاء أشكال 
عديدة هذه الخوارزمية» فقد ابتكرت Porter‏ لاحقا Snowball id‏ وهى لغة معالحة 
صغيرة مصممة خصيصًا لغرض إنشاء خوارزميات توليد جذع الات المستخدمة 
في عملية استرجاع المعلومات. ومنذ ذلك الوقت» تم استخدام لغة Snowball‏ لإنشاء 
أدوات متنوعة ومفيدة ومفتوحة المصدر لتوليد جذع الكلمات للعديد من اللغات. توفر 
منظومة GATE‏ مظلة لعدد من هذه الأدوات» وتضم هذه المظلة 11 لغة من اللغات 
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col gol لكرن‎ aoa هذه الأدرات لل‎ os NLTK. à i huia t 
توليد جذع الكلمات مبنية على منهجية تعتمد على قواعد ولسهولة تعديلها وفقا لمنهجية‎ 
الأصلية» فهذا ما يسهل دمج هذه الأدوات مع المكونات الأخرى ذات المستوى‎ 
OpenNLP المنخفض التي سبق شرحها في هذا الفصل. تجدر الإشارة إلى أن منظومتي‎ 

Stanford CoreNLP ;‏ لا توفران أي أدوات لتوليد جذع الكلمة. 


A-Y‏ التحليل النحوي 
يُعنى التحليل النحوي بتحليل الجملء وذلك باشتقاق Gn‏ النحوية وفقا للقواعد 
النحوية. عملية التحليل تشرح بشكل أساسي كيف ترتبط العناصر المختلفة في الجملة 
بعضها ببعض» على سبيل المثال كيف يتصل الفاعل والمفعول به في فعل معين بعضه| 
ببعض. هناك الكثير من النظريات النحوية المختلفة في علم اللغويات الحاسوبية» حيث 
تطرح هذه النظريات أنواعا مختلفة من البنى النحوية. هذا السبب» قد تختلف أدوات 
التحليل بعضها عن بعض» ليس من حيث الأداء فحسب» بل أيضًا من حيث نوع 
التمثيل الشكلي الذي تُنتجه. وذلك بناءً على النظرية النحوية التي تستخدمها. 

تتوفر عدة أدوات تحليل Ule‏ وتغطي Ga:‏ واسعًا وتشمل محلل التبعية M11٩1‏ 
وكذلك محلل RASP‏ الإحصائى [18] ومحلل Stanford‏ الإحصائى ]19[ « ومحلل 
SUPPLE‏ متعدد الاستعالاات ]20[ تتوفر جميع هذه الأدوات eta‏ منصة عمل 
GATE‏ وهو ما يعني أن بوسع المستخدم تجربتها جميعًا ومن ثم تحديد الأداة الأكثر 
مناسية لاحشاجاته. 

E‏ محلل Minipar‏ محلل تبعية» بمعنى أنه يحدد علاقات التبعية القائمة بين الكلمات 
الموجودة في جملة معينة. يقوم هذا المحلل بمعالجة النص جملة بجملة» ولذا فإنه لا يحتاج 
سوى إلى ahis‏ الجمل كشرط أسامي. يعمل هذا المحلل على أساس تحديد البنى 
اللغوية وأجزاء الكلام» مثل apposition‏ وحمل الوصل والفاعل والمفعول به في فعل 
معين» وكذلك المحددات» وطريقة ارتباط بعضها ببعض. البدل هى التركيبة اللغوية 
a‏ لكين فيه غيا اناد ررد ی يجاني يعسن إلى الي به عل 


l- http://www.cs.ualberta.ca/-lindek/minipar.htm 
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سبي AD "my brother John" JUL‏ جون) “Paris, the capital of France j|‏ 
(باريس» عاصمة فرنسا). أما حمل الوصل فهى تبدأ عادة بأحد ضمائر الوصل (مثل 
Jed; «tll... “which” s “who”‏ تعديلاً على اسم سابق» على سبيل المثال Who»‏ 
twas wearing the hat‏ (الذي كان يرتدي (asal‏ في الجملة the man who was?‏ 
wearing the hat‏ (الرجل الذي كان يرتدي القبعة). 

على عكس علاقات التبعية» das‏ حللات المكونات مبنية على مفهوم علاقات 
المكونات» وقد تتضمن عددًا من نظريات القواعد النحوية المختلفة الخاصة بالمكونات» 
مثل القواعد النحوية الخاصة ببنية العبارات والقواعد النحوية المصنفة والقواعد 
اا الح usd dS ed D E‏ ات ع itus aoi doa‏ 
من تقسيم الجملة إلى فاعل ومفعول به في قواعد النحو في اللختين اللاتينية واليونانية» 
حيث يتم تقسيم البنية الأساسية للجُملة إلى قسمين هما الفاعل (شبه الجملة الاسمية) 
والمفعول به (شبه الحملة الفعلية). بعد ذلك تجري تقسيمات إضافية هذين القسمين 
cells‏ في مستويات تفصيلية أخرى. 

E‏ محلل Nt. Shift-Reduce Constituency Parser--U ,Sl|‏ جيدًا على 
محللات المكونات» ويشكل هذا المحلل جزءًا من أدوات ?Standford CoreNLP‏ 
ظلت عمليات .| Shift-and-reduce‏ تُستخدم لوقت طويل في عمليات تحليل 
التبعية بسرعة عالية ودقة فائقة» لكن لم تستخدم هذه العمليات إلا في الآونة الأخيرة 
في تحليل المكونات. هيدف محلل Shift-Reduce‏ إلى تحسين عمل عللات المكونات 
القديمة التي كانت تستخدم خوارزميات تعتمد على الرسوم البيانية (البريجة 
الديناميكية) من أجل العثور على نتيجة البحث التى تحصل على أعلى درجة» وكانت 
هده الات دة وبطعة للغاية فى الرقت تسه 

بيخ الكل Vo‏ فج قال جرى Gl]‏ باتكل القراعدةالتسموية oll‏ 
بين يبين الشكل V-Y‏ شجرة ناتجة عن استخدام القواعد النحوية الخاصة بالمكونات 
للجملة نفسها (يطارد ASIE‏ الكرة الحمراء). 


1- http://nlp.stanford.edu/software/srparser.shtm 
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صفة أداة تعر يف 


The dog is chasing the red ball 


الشكل 5-7: شجرة تحليل تبين علاقات تبعية. 
يعد محلل RASP‏ الإحصائي [18] محللاً ذا نطاق حر يتميز بالفاعلية» وهو مصمم 
للعمل باللغة الإنجليزية. هذا المحلل مرفق بمجزئ وحدات لغوية خاص به» إلى جانب 
مصنف لأجزاء الكلام ومحلل صرفي خاصين « $5( هو JH‏ مع محلل «Minipar‏ 
يتطلب هذا المحلل أن يكون النص مقطعًا مسبقا إلى جمل. محلل RASP‏ متاح بموجب 

ترخيص LGPL‏ ولذا يمكن استخدامه في التطبيقات التجارية. 
يعل محلل Stanford‏ الإحصائي [19] عبارة عن نظام تحليل نحوي قائم على 
الاحتالات. يوفر هذا المحلل إما مخرجات تبعية أو مخرجات تكون على شكل بنبة 
عبارات أو شبه حُمل. يمكن معاينة النوع الأخير من المخرجات داخل واجهة المستخدم 
الرسومية الخاصة بالمحلل» أو عبر استخدام واجهة المستخدم الخاصة بمنصة عمل 
gi .GATE Developer‏ محلل Stanford‏ مرفقًا بملفات بيانات لتحليل لغات تشمل 
العربية والصينية والإنجليزية والألمانية» وهو مرخص بموجب ترخيص | .GNU GPL‏ 
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شبه جملة فعلية فعل اسم أداة تعريف 


اسم صفة اداة تعر يف 


The dog is chasing the red ball 


الشكل ۷-۲: شجرة تحليل تبين علاقات المكونات. 
Ax‏ محلل SUPPLE‏ محللاً نحويًا يعمل Ub,‏ لمفهوم من الأسفل إلى الأعلى 
bottom-up‏ وهو قادر على إنتاج تثيل دلالي للجمل يسمى النموذج شبه المنطقي 
المبسط (SQLF)‏ يتميز هذا المحلل بميزة الفاعلية الفائقة» وذلك بفضل قدرته على 
إصدار نتائج نحوية ودلالية جزئية» وهو ما يجعله قابلاً للتطبيق بصفة خاصة في اشتقاق 
الخصائص الدلالية لعملية استخلاص العلاقات الدلالية» بناءً على أسلوب التعلم 
«JI‏ لكميات كبيرة من النصوص الحقيقية. 


Y‏ -4 تجزتة النص 

تكون خوارزميات التحليل باهظة التكاليف من الناحية الحسابية في كثير من 
الأحيان» وكا هو الحال مع العديد من col pol‏ التحليل» تميل هذه الخوارزميات للعمل 
في أحسن صورها عندما يكون النص الذي تعالجه مشايبًا للنص الذي سبق تدريبها 
عليه. وبسبب كون مهمة تجزئة النص أكثر تعقيدًا من بعض مهام المعالجة ذات المستوى 
المنخفضء مثل مهمتي تجزئة وتقسيم الجمل» يكون أداؤها أدنى بكثير في العادة» وهو 
ما يمكن أن تكون له تداعيات على أي مهمة أخرى من مهام المعالجة التي تأي لاحقاء 
مثل مهمة التعرف على كيانات الأسماء ومهمة إيجاد العلاقات. لهذا السبب» يكون 
من الأفضل أحيانا التضحية بالمعرفة الإضافية التي يوفرها المحلل مقابل الحصول 


هل 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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على أداة أخف يمكن الاعتاد عليهاء مثل أداة تجزئة النص التي تقوم بإجراء تحليل 
لغوي سطحي -غير عميق-. تتعرف أدوات التقطيع» التي تُعرف أحيانًا بالمحللات 
السطحية» على سلاسل متتابعة من الكلمات المترابطة مثل أشباه الجمل الاسمية» لكنها 
وخلافا للمحللات لا تقدم تفاصيل عن بنيتها الداخلية أو دورها في الجملة. 

يمكن تقسيم أدوات تجزئة النص إلى مجزئات العبارات الاسمية ومجزئات العبارات 
الفعلية. تقل الاختلافات بين هذين النوعين من أدوات التجزئة عن الاختلافات بين 
خوارزميات التحليل» وذلك OY‏ عملية التحليل تتم على مستوى تحليل المكونات 
الرئيسة بشكل إجمالي (coarse-grained level)‏ حيث تقوم أدوات تقطيع do‏ 
بالتعرف على «أجزاء» النص ذات الصلةء لكنها لا تسعى إلى تحليل تلك الأجزاء. غير 
أنها قد تختلف C‏ بينها ea‏ تعتبره ذا صلة بجزء النص قيد التحليل. على سبيل المثال» قد 
تتكون عبارة اسمية بسيطة من سلسلة متتالية تحتوي على 2X‏ اختياري» وصفة أو نعت 
Lc aL set‏ بساني اسم pa AY JS ice pn etis anl‏ 
جهة أخرى» قد تتضمن العبارات الاسمية الأكثر تعقيدًا -بالإضافة إلى ما سبق - شبه 
ila‏ جار ومجرور أو حملة وصل تقوم بإدخال تعديل على العبارة الاسمية. تتضمن 
بعض مجزئات النص هذه الأشياء كجزء من العبارة الاسمية» eo‏ لا يتضمنها بعضها 
الآخر (الشكل (Y 7 Y‏ تعثمد عملية ااذ قرار بشأن تضمين شبه جملة جار 2393 
أو y d‏ وصل في الجملة الاسمية اعتمادًا كبيرًا على الغرض الذي سيتم استخدام أجزاء 
النص من أجله لاحقا. على سبيل المثال؛ إذا كانت أجزاء النص ستستخدم كمُدخلات 
ilo‏ تتعرف على المصطلحات. فينبغي الأخذ بعين الاعتبار ما إذا كان احتهال وجود 
عبارة تحتوي على شبه ila‏ جار ومجرور أمرًا ذا صلة آم لا. عندما يتعلق الأمر بتوليد 
الانطولوجيات» ليست مثل هذه العبارة مطلوبة على الأرجح» لكنها قد تكون مفيدة 
عند استخدامها كهدف لعملية تحليل المشاعر. 


|Context The old man bought a hat. 
Rr M 


الشكل ۸-۲: تقطيع بسيط لشبه iLE‏ اسمية -الرجل المسن اشترى قبعة. 


ex 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
رب اا ال طغغغ ييا 


The old man bought a hat with a brim. 
كك كد‎ 


الشكل 9-7: تقطيع مركب لشبه ILE‏ اسمية لا يشمل أشباه حمل الجار والمجرور- الرجل المسن 
The old man bought a hat with a brim.‏ 
NounChunk| | C] Em mH‏ 


الشكل Y i Y‏ تقطيع مركب لشبه خملة اسمية يشمل أشباه جمل الجار والمجرور. 

تقوم مجزئات أشباه الجمل الفعلية برسم حدود الأفعال» حيث يمكن أن تتكون 
الأفعال من كلمة واحدة مثل bought‏ (اشترى) أو مجموعة أكثر تعقيدًا تضم أفعال 
صيغة المصدر والأفعال الشكلية المساعدة وما شابه (Je)‏ سبيل المثال might have‏ 
bought‏ [يحتمل أنه اشترى] أو ٥ buy‏ اليشتري]). قد تتضمن أيضًا عناصر نفى مثل 
might not have bought‏ (يحتمل أنه يشتر) أو D didn't buy‏ يشتر). يبين الشكل 
Y ١١-۲‏ على أحد رجات برنامج لتجزيء الجمل يجمع بين عمليتي تجزيء أشباه 
الجمل الاسمية وتجزيء أشباه الجمل الفعلية. 


The old man might not have bought a hat. 


[cochon] INN m 
[m لكك‎ 


الشكل :١١-7‏ تقطيع مركب للعبارات الفعلية. 
توفر بعض الأدوات أيضًا مهام إضافية» على سبيل المثال يتميز مُصنف أجزاء الكلام 
TreeTagger‏ ]21[ (المدرب على قاعدة بيانات (Penn Treebank‏ بقدرته على توليد 
أجزاء أشباه مل الجار والمجرور وأشباه جمل الصفات وأشباه جمل ظروف الأحوال وما 
شابه. قد تكون هذه المهام مفيدة لبناء تمثيل شكلي للعبارة بأكملها من دون الحاجة إلى 
إجراء تحليل كامل. 


ب 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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وكا رأينا سابقاء فإن أدوات المعالحة اللغوية ليست خالية من الأخطاءء حتى لو 
oT La al‏ المكونات الى تمد غلليها فل ga cual‏ لد عر coles‏ مال قد وذو م 
السهل إنشاء مجزئ لأشباه الجمل الاسمية يعتمد على قواعد نحوية تشمل بطاقات 
تصنيف لأجزاء الكلام» لكن هذه العملية معرضة للوقوع في الأخطاء بسهولة. دعنا 
ننظر إلى الجملتين I gave the man food‏ (أعطيت الرجل I bought the ; (GLb‏ 
baby food‏ (اشتريت طعام الطفل). في حالة الجملة الأولى» الرجل والطعام هما 
عبارتان اسميتان» وما المفعول به المباشر والمفعول به غير المباشر على التوالي في الفعل 
gave‏ (أعطيت). بإمكاننا إعادة صياغة هذه الحملة I gave food to the mangema‏ 
(أعطيت الطعام للرجل) من دون حدوث أي تغيير في المعنى» حيث يتضح أن أشباه 
الجمل الاسمية هذه مستقل بعضها عن بعض. لكن في المثال الثاني قد تكون شبه الجملة 
alab) the baby food‏ الطفل) إما شبه iLE‏ اسمية فردية تحتوي على الاسم المركب 
baby food‏ (طعام الطفل) أو تتبع نفس بنية المثال السابق I bought food for the‏ 
baby‏ (اشتريت GLb‏ للطفل). لن يستطيع Je oe dese‏ اسمية يستخدم نمط 
«محدد + اسم + اسم» الذي يبدو منطقيا التمييز بين هاتين ا حالتين. وفي هذه الحالة» قد 
يكون أداء نموذج معتمد على التعلم أفضل من أداء منهج معتمد على القواعد. 

colis GATE | Jae Xara y‏ اقطعاك عارات اسا وغبارات فل يعد 
مجزئ العارات الا يعتمد على لغة جافا Ramshaw and Marcus yæl‏ 
BaseNP‏ ]22[ وهو مجزئ مبني على بطاقات تصنيف أجزاء الكلام الخاصة dec‏ 
ويستخدم منهج التعلم المعتمد على التحؤّل. تكون رجات هذه النسخة من مجزئ 
العارات الأسهية نطابقة رجات السك الأضلية اة برام C [Perl i)‏ 

مجزئ GATE VP‏ مكتوب بلغة JAPE‏ وهى لغة خاصة بمنصة عمل GATE‏ 
تعتمد على كتابة القواعد. هذا المجزئ مبنى de‏ أساس قواعد النحو في اللغة 
ا نعم هنا cade gei‏ مل di loe‏ قير 
المتكررة» حيث يضم الأفعال المحدودة is investigating)‏ ]322 في]) وغير المحدودة 
to investigate)‏ [التحقيق في]) والنعوت الفعلية investigated)‏ [جرى التحقيق 
في1) والتراكيب الفعلية الخاصة going to investigate)‏ 15 [سوف BUT GA‏ 


E 
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هذه الأشكال الكليات وأشباه الجمل الظرفية والعبارات السلبية ممكن أن تشمل 
بهذا المجزئ. ومن مزايا هذه الأداة تحديدها بوضوح لصيغة النفي في الأفعال (مثال 
(don't‏ وهو أمر مفيد جدًا للمهام الأخرى مثل مهمة تحليل المشاعر. تعتمد القواعد 
على بطاقات تصنيف أجزاء الكلام» إلى جانب بعض الترادفات المحددة (مثال: يمكن 
استخدام كلمة might‏ للتعرف على الأفعال الشكلية المساعدة). 

يستخدم المجزئ الخاص بمنصة عمل OpenNLP‏ نموذجًا باللغة الإنجليزية 
مسبق التجهيز ويقوم على منهجية التحول القصوى. وعلى عكس منصة عمل GATE‏ 
التي يعد المجزّتان الخاصان بها مستقلين» فإن هذا المحلل يقوم بتحليل النص جملة 
بجملة» ويقوم بإنتاج أجزاء للعبارات الاسمية والعبارات الفعلية على حد سواء دفعة 
واحدة» وذلك اعتمادًا على بطاقات تصنيف أجزاء الكلام الخاصة بأشباه الجمل. يتميز 
مقطّع OpenNLP‏ بسهولة عملية إعادة تدريبه» وهو ما يُسهل بدوره عملية تكييفه 
مع المجالات وأنواع النصوص الجديدة إذا توفر مكنز ملائم سبق إضافة التعليقات 
والشروحات إليه. 

لا توفر منصتا NLTK Stanford‏ و CoreNLP‏ أي مجزتات للنصوص. على الرغم 
من إمكانية إنشاء تلك المقطّعات باستخدام القواعد و/ أو تقنية التعلم JYI‏ من المكونات 
الأخرى (مثل بطاقات تصنيف أجزاء الكلام) في مجموعة الأدوات ذات الصلة. 


٠١-۲‏ خلاصة 
في هذا الفصل» عرضنا مفهوم خط أنابيب معالجة اللغة الطبيعية» وقدمنا شرحًا 
لمكوناته الرئيسة» مع الإشارة إلى بعض الأدوات ذات المصدر المفتوح المستخدمة على 
نطاق واسع. من المهم الإشارة إلى أنه في حين يعد أداء مهام المعالجة اللغوية ذات المستوى 
المنخفض مرتفعًا بشكل cele‏ إلا أن الأدوات تختلف في أدائهاء ولا ينحصر ذلك في دقتها 
فحسب» بل يشمل أيضًا الطريقة التي تؤدي فيها المهام وني hele é‏ كذلك» وذلك 
بسبب اتباعها نظريات لغوية مختلفة. لذا من المهم عند اختيار أدوات المعالجة المسبقة 
فهم ما هي متطلبات الأدوات الأخرى الموجودة في المراحل الفرعية التي تأتي لاحقا 
ضمن التطبيق. وعلى الرغم من إمكانية الجمع بين بعض الأدوات V)‏ سيا في منصات 


AE 
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عمل من قبيل منصة GATE‏ والمنصات المشابهة ها التى صّممت بالذات لكى تكون 
قايلة للعشغيل المتبادل)» إلا أن مسآلة التوافق بين المكونات الختلفة قد تسبب بخض 
المشكلات. يعد هذا الأمر من الأسباب التي أدت إلى وجود مجموعات أدوات غتلفة 
توفر مجموعات أدوات متشابهة لكنها يختلف بعضها عن بعض بشكل طفيف. من المهم 
كذلك إدراك أثر تغيير المجال ونوع النص من ناحية celo MI‏ وما إذا كانت الأدوات سهلة 
التعديل أم لا إن كان الأمر يتطلب ذلك. قد تنشأ مشكلة ما -على وجه الخصوص- 
بسبب الانتقال من أدوات مُدرّبة على النصوص الإخبارية العادية إلى معالجة نصوص 
شبكات التواصل الاجتهاعى» وهو ما سنناقشه بالتفصيل في الفصل الثامن. وبالمثل» 
يمكن تكييف بعض الأدوات لتتلاءم مع اللغات الجديدة (وبالأخص المكونات الأولى 
في سلسلة المعالجة من قبيل مجزئات الوحدات اللغوية)» في حين قد يكون من الصعب 
تكييف الأدوات الأكثر تعقيدًا من قبيل المحللات اللغوية مع تلك اللغات. في الفصل 
التالي» سوف نعرض مهمة التعرف على كيانات الأسماء وسنبين كيف يمكن بناء أدوات 
المعالجة اللغوية التي ورد شرحها في هذا الفصل لإنجاز هذه المهمة. 
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الفصل الثالث 
التعرف على كيانات الأسماء وتصنيفها 
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Y-Y‏ مقدمة 
كا ناقشنا في الفصل الأول» استخراج المعلومات هي عملية استخلاص 
المعلومات من النصوص غير المنظمة وتحويلها إلى بيانات منظمة. تلعب مهمة 
التعرف على كيانات ele YI‏ وتصنيفها (NERO)‏ دورًا حوريًا هناء حيث تشمل 
هذه المهمة التعرف على الأسماء الصحيحة في النصوص (مهمة التعرف على كيانات 
الأسماء واختصارها (NER‏ وتصنيفها إلى مجموعة من الفئات ذات LAYI‏ 
المحددة مسقا (مهمة تصيف: كيانات الأساء واختضارها se de NEC‏ 
alli col pol‏ المسبقة الى cuni e‏ فق الفصل السابق» وال تع بالطليل 
النحويء تُعنى مهمة ادرف على كيانات الأسماء وتصنيفها (NERC)‏ باستنباط 
الدلالات من المحتوى النصى تلقائيًا. المجموعة الأساسية التقليدية لكيانات 
الأسماءء التي تم تطويرها اة NERC‏ المشتركة في مؤتمر (MUC-6)‏ تتضمن 
تعبيرات الأشخاص والمنظمات والمواقع والتواريخ والوقت» مثل باراك أوباما 

ومايكروسوفت ونيويورك و٤‏ تموز (يوليو) Y* Yo‏ وما إلى ذلك. 

بشكل cele‏ تعد مهمة التعرف على كيانات الأساء وتصنيفها (NERO)‏ 
مهمة إضافة تعليقات وشروحات cannotation‏ بمعنى إضافة حواش على شكل 
كيانات أسماء ONES)‏ إلى نص معين» ولكن يمكن أن يقتصر عملها ببساطة 
على إنتاج قائمة تضم كيانات أسماء يمكن استخدامها بعد ذلك لأغراض 
ous ul‏ في ذلك إنشاء أو توسيع معاجم كيانات الآسماء للمساعدة في إنجاز 
مهمة إضافة حواشي كيانات الأسماء إلى النصوص في المستقبل. يمكن تقسيم 
هذه المهمة إلى مهمتين: مهمة التعرف على كيانات الأسماء» التى تشتمل على 
التعرف على حدود كيانات الأسماء» (يشار إليها عادة باسم NT‏ التعرف على 
كيانات الأسماء «NER‏ ومهمة تصنيف كيانات الأسماء (NEC)‏ وتشتمل 
على الكشف عن فئة أو نوع كيانات الأسماء. تستخدم مهمة التعرف على 
كيانات الأساء في الغالب لتعني كلتا المهمتين» على الرغم من كون ذلك قد 
يسبب بعض الالتباس» خصو صا في الأعمال القديمة. في هذا الكتاب» سوف 
نتقيّد باستخدام مهمة التعرف على كيانات الأسماء وتصنيفها (NERC)‏ لتعني 
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كلتا المهمتين» ومهمة التعرف على كيانات الأسماء لتعني عنصر التعرف على 
كيانات الأساء فقط. لكى تكون مهمة تصنيف كباثات AMI‏ أكثر دقة من 
cà a‏ العتاد الذي يقتم كيانات الأسياء إل أشخاض ومنظمات ومواقع» 
تؤخذ col‏ الكيانات عادة من مخطط أنطولوجياء وتكون فئات فرعية لتلك 
التصنيفات المعتادة [26]. يتمثل التحدي الرئيس الذي يواجه مهمة تصنيف 
كيانات الأسماء (NEC)‏ في أن كيانات الأسماء يمكن أن تكون على درجة 
عالية من الغموض (على سبيل المثال: «ماي (May‏ يمكن أن يكون اسم شخص 
ما أو أحد أشهر السنة؛ كا يمكن أن يكون «مارك (Mark‏ اسما لشخص ما أو Cl‏ 
سانا وهذا الست Com‏ تفل مهمة العرف عل كانات الأساء ومهينة تضصيف 
كيانات الأسماء كمهمة واحدة في العادة). 

هناك مهمة إضافية تتعلق بكيانات الأسماء» وهي مهمة ربط كيانات الأسماء 
(NEL)‏ تحدد هذه المهمة ما إذا كانت الإشارة إلى أحد كيانات الأسماء التي ترد في 
لصن ون ill sco‏ مع gl‏ كار من e E‏ الواردة فى deli‏ مر فة Aser yo‏ 
تعنى الإشارة إلى أحد كيانات الأساء تعبيرًا يرد في النص للإشارة إلى أحد كيانات 
الأساء: قد يرد هذا التعبير بأشكال مختلفة» على سبيل المثال» «السيد سميث» و)اجون 
سميث» كلتاهما إشارتان (تمثيلان نصيّان) OLS‏ واحد في العام الحقيقي» ويعبران 
عنه بتحقيقين لغويين مختلفين قليلاً. تكون القاعدة المعرفية المرجعية المستخدمة عادة 
موسوعة ويكيبيديا. مهمة ربط كيانات (NEL) ee MI‏ أكثر صعوبة من مهمة تصنيف 
كيانات (NEC) «NI‏ لأن تحديد أوجه التمايز بين الكيانات لا ينبغي أن يتم على 
مستوى فئة الكيان فحسب» بل يجب أن يتم أيضًا داخل cota‏ الكيانات. عل سبيل 
المثال» هناك أشخاص كثر يحملون اسم «جون سميث». كلما كانت الأسماء شائعة 
أكثر» كلما أصبحت مهمة ربط كيانات الأسماء أكثر صعوبة. هناك مشكلة إضافية 
تتعلق بجميع المهام ذات الصلة بالقواعد المعرفية» وهي مشكلة عدم JESI‏ القواعد 
المعرفية. على سبيل المثال» تتضمن هذه القواعد الأشخاص الأكثر شهرة تمن يحملون 
اسم «جون سميث». غير أن الأمر يشكل Gad‏ من نوع خاص عند التعامل مع المهام 
التى تشتمل على أحداث جرت في الآونة الأخيرة» لأنه عادة ما يكون هناك فارق زمنى 
NUN‏ الناشئة حديثًا التي تبرز في الأخبار أو في شبكات التواصل ES‏ 


-V +- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


وبين عملية إضافة معلومات هذه الكيانات إلى القواعد المعرفية لغرض تحديثها. في 
الفصل الخامس سنورد مزيدا من التفاصيل بشأن مهمة ربط كيانات cele YI‏ إلى جانب 
المكانز المرجعية ذات الصلة. 


۲-۳ أنواع كيانات الأسماء 

يرجع السبب في ارتفاع شعبية كيانات من قبيل الأشخاص والمنظيات والمواقع 
والتواريخ والأوقات كأنواع قياسية لتقسيم كيانات الأسماء إلى حد كبير إلى سلسلة 
مؤتمرات فهم الرسائل (MUC)‏ ]25[ التي استحدثت مهمة التعرف على كيانات 
الأسماء وتصنيفها في عام 1995م» والتي كانت بدورها القوة الدافعة وراء تطوير العديد 
من الأنظمة التي لا تزال موجودة اليوم. وبسبب التوسع في الجهود المبذولة لتقييم مهمة 
التعرف على كيانات الأسماء وتصنيفها (سيرد شرحها بشكل مفصل في القسم 3-3) 
والحاجة إلى استخدام أدوات مهمة التعرف على كيانات ele MI‏ وتصنيفها في تطبيقات 
عملية في سيناريوهات حقيقية» باتت تُعرف أنواع أخرى من الأساء الصحيحة 
والتعبيرات Ée‏ على أا كيانات أسماء. بها في ذلك الصحف والمبالغ النقدية» 
بالإضافة إلى التصنيفات الأدق للكيانات المشار إليها أعلاه» مثل المؤلفين والفرق 
الموسيقية وفرق كرة القدم والبرامج التلفزيونية» وما إلى ذلك. تعد مهمة التعرف على 
كيانات الأساء وتصنيفها نقطة الانطلاق للعديد من التطبيقات والمهام المعقدة» مثل 
بناء الأنطولوجيات واستخراج العلاقات والإجابة عن الأسئلة واستخراج المعلومات 
واسترجاع المعلومات والترجمة الآلية وإضافة التعليقات والشروحات الدلالية. مع 
ظهور سيناريوهات استخراج المعلومات المفتوحة التي تشمل شبكة الإنترنت بأكملهاء 
وتحليل محتوى شبكات التواصل الاجتماعي التي تظهر فيها كيانات جديدة باستمرار» 
ومهام ربط كيانات الأسماء فقد اتسع نطاق الكيانات المستخلصة بشكل كبيرء الأمر 
الذي جلب العديد من التحديات الجديدة (انظر على سبيل JEU‏ القسم ٤-٤‏ الذي 
يناقش دور قواعد المعرفة في مهمة ربط كيانات الأساء). علاوة على ذلك» باتت مهمة 
التعرف على الكيانات المعتادة المكونة من o‏ أو ۷ فئات تصنيفية أقل فائدة في الغالب» 
وهذا بدوره يعني أن هناك حاجة لتطوير ناذج جديدة. في بعض الحالات» مثل التعرف 
على أسماء مستخدمي تويتر» أصبح التمبيز بين فئات الكيانات التقليدية» مثل المنظمات 


الاب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—.- 9‏ 


والمواقع» غير واضح حتى بالنسبة للإنسان» ولم يعد هذا النوع مفيدًا في جميع الحالات 
(انظر الفصل الثامن). 

إن تعريف ما ينبغي أن يكون عليه كل نوع من أنواع الكيانات ليس Val‏ سهلا 
على الإطلاق» وتختلف القواعد الإرشادية في هذا الخصوص GS‏ للمهمة. من الناحية 
التقليدية» كان الناس يستخدمون القواعد الإرشادية المعيارية الصادرة من مؤتمرات 
التقييم» مثل مؤتمر فهم الرسائل (MUC)‏ ومؤتمر تعلم اللغات الطبيعية «CONLL)‏ 
لأن هذه المبادئ تسمح بالمقارنة بين الأساليب والأدوات بسهولة. لكن مع بدء استخدام 
الأدوات في تطبيقات عملية في سيناريوهات حقيقية» ولذا فمع تغيّر أنواع كيانات 
الأسماء وتطورهاء فقد أصبح من الضروري أيضًا تكبيف طرق تعريف الكيانات 
لتتلاءم مع المهمة. بطبيعة الحال» هذا الأمر يجعل عملية إجراء المقارنات وتقييم الأداء في 
الوقت ال حالي أكثر صعوبة. على وجه الخصوصء سعى تقييم ACE‏ 271] إلى حل بعض 
المشكلات الناجمة عن عملية تبديل الكلمات أو الكناية» التي يتم فيها استخدام كيان معين 
يصف من الناحية النظرية نوعا محددًا من أنواع الكيانات (على سبيل المثال: منظمة) على 
نحو مجازي. من الأمثلة على ذلك فرق كرة القدم» حيث يجوز استخدام مواقع من قبيل 
إنجلترا أو ليفربول للإشارة إلى فريقي هذين الموقعين (على سبيل المثال: فازت إنجلترا 
بكأس العالم في عام 1966). سالك سكن استخدام مواقع مثل البيت الأبيض أو ٠١‏ 
داوننغ ستريت للإشارة إلى المنظمة أو الهيئة التي توجد بداخلها (أعلن البيت الأبيض 
تعهدات بشأن المناخ أقرها ۸١‏ بلدًا). تشمل القرارات الأخرى S‏ تحديد ما إذا كان 
ينبغي إدراج الذات الإلهية والرسل ضمن فئة (شخص)» وإذا كان الأمر كذلك يضاف 
إلى ذلك تحديد ما إذا كان ينبغي إدراجها في تلك الفئة في جميع الحالات» بم فيها DYH‏ 
التي يستخدم فيها اسم الذات الإلهية والرسل كجزء من الألفاظ النابية. 


Y-Y‏ تقييم كيانات الأسماء والمكانز 

كما ذكر أعلاه» كانت سلسلة مؤتمرات فهم الرسائل (MUC)‏ أول سلسلة مهمة في 
مؤتمرات تقييم مهمة التعرف على كيانات الأسماء وتصنيفها NERC‏ حيث تناولت 
هذه السلسلة أول مرة التحدي الذي تمثله كيانات الأساء في عام ١47‏ م. كان الهدف 


من ذلك التعرف على كيانات الأساء الواردة في النص الإخباري» وهو مالم يسهم 
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في تطوير نظام جديد فحسبء بل أدى أيضًا أول مرة إلى إصدار مكانز تحتوي على 
تعليقات وشروحات مكونة من كيانات أسماء» لتصبح هذه المكانز بمنزلة المعيار الذهبي 
المستخدم لأغراض التدريب والاختبار. وأعقب ذلك سلسلة مؤتمرات تعلم اللغات 
الطبيعية (CONLL)‏ [28] في عام ٠٠٠1"‏ م» وهي سلسلة أخرى ضمن مؤقرات التقييم 
الرئيسة» وقد أصدرت بدورها بيانات أصبحت بمنزلة المعيار الذهبى لوكالات الأنباء» 
ليس فقط باللغة الإنجليزية» ولكن أيضًا باللغات الأسبانية والمولندية والألمانية. يعد 
كد sd dona ai Qnid MAD iC M‏ 
على كيانات الأسماء وتصنيفهاء وعادة ما تعتمد إصدارات برامج التعرف على كيانات 
الأساء a lusus‏ المكنز في يتعلق بالأداء. 


بدورها بدأت مؤتمرات التقييم الأخرى التي عقدت في وقت لاحق ى dias dst‏ 
استخدام مهمة التعرف على كيانات الأسماء وتصنيفها في أنواع أخرى من النصوص 
غير الإخبارية» خصوصًا مكنز OntoNotes pS 5 [27] ACE‏ [29]» واستحدثت 
Ue yl‏ جديدة من كيانات الأسماء. كلا هذين المكنزين يحتويان على مكانز فرعية تضم 
أنواعًا ختلفة من النصوص مثل نصوص وكالات الأنباء والبث المباشر للأخبار والبث 
المباشر للمحادثات ومدونات الويب والمحادثات التليفونية. بالإضافة إلى ذلك» يحتوي 
مكنز ACE‏ على مكانز فرعية تحتوي على مجموعات أخبار فرعية في شبكة «Usenet‏ 
ولا يقتصر على اللغة الإنجليزية فحسب» بل شمل LAT‏ اللغات العربية والصينية في 
الإصدارات اللاحقة. يتضمن كل من مكنز OntoNotes Ky ACE‏ أيضًا مهام 
مثل إيجاد جميع التعبيرات التي تشير إلى الكيان نفسه في النص» واستخراج العلاقات 
والأحداثء وإزالة الغموض في pies‏ الكلمات» Ut‏ يسمح للباحثين بدراسة التفاعل 
بين هذه المهام. سوف نتناول هذه المهام في القسم 0-7 وفي الفصلين الرابع والخامس. 

وعلى الرغم من أن مكانز مهام التعرف على كيانات الأساء وتصنيفها تستخدم 
في الغالب الأنواع التقليدية للكيانات» مثل الأشخاص والمنظات والمواقع» وهي 
أنواع لا تستند إلى قاعدة معرفية صلبة للويب الدلالي (مثل DBpedia‏ أو Freebase‏ 
أو (YAGO‏ ولذلك op‏ هذه الأنواع التقليدية عامة جدًا. يعني ذلك أنه عند تطوير 
منهجيات مهام التعرف على كيانات الأسماء وتصنيفها بناءً على هذه المكانز لأغراض 
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الويب الدلالي» من السهل نسبيا البناء عليها وتضمين روابط لإحدى القواعد المعرفية 
فيها في وقت لاحق. على سبيل ال مثال» تستخدم أنطولوجيا NERD‏ ]30[ أنطولوجيا 
1 التي تحتوي على مجموعة من المخططات لجميع فئات الكيانات de)‏ سبيل 
المثال: فئة جرم هي فئة فرعية لفئة شخص في أنطولوجيا NERD‏ 


£-Y‏ تحديات التعرف على كيانات الأسماء 

أحد التحديات الرئيسة التي تواجهها مهمة تمييز كيانات الأسماء وتصنيفها تكمن 
في التمييز بين كيانات الأسماء وبين الكيانات الأخرى. وجه الاختلاف بينهما يكمن في 
أن كيانات الأسماء هي نماذج لأنواع الكيانات (مثل: شخصء سيامي) ويكون الكيان 
الذي تشير إليه كيانًا فريدًا واحدًا يوجد في واقع الحياة» في حين أن الكيانات الأخرى 
غالبا ما تكون مجموعات من كيانات الأساء التي لا تشير إلى كيانات فريدة موجودة في 
العالم الحقيقي. على سبيل المثال» «رئيس الوزراء» هو كيان لكنه ليس كيانًا للاسم» لأنه 
يشير إلى أي شخص ينتمي إلى مجموعة من كيانات الأساء (أي شخص شغل منصب 
ركس الووراءسابقا أو حال ومن ادير بالذكر OT‏ الت eias‏ يمكن أن بكرن 
صعبًا du‏ حتى بالنسبة للإنسان» مع العلم أن قواعد إضافة التعليقات والشروحات 
للمهام تختلف فيا بينها في هذا QUI‏ 

هناك تحد آخر يتمثل في التعرف على حدود كيانات الأسماء بشكل صحيح. في JE‏ 
“1-1» من المهم إدراك أن كلمة السيد هي جزء من الاسم السيد روبرت والبول. لاحظ 
أن المهام تختلف أيضًا في المكان الذي تضع فيه حدود كيانات الأساء. تنص المبادئ 
التوجيهية لمؤتمرات فهم الرسائل على أنه ينبغي أن تتضمن كيانات الأشخاص الألقاب» 
لكن مؤقرات التقييم الأخرى قد تحدد مهامها بشكل مختلف. في المرجع ]31[ مناقشة 
جيدة لمشكلات تصميم مهام التعرف على كيانات الأسماء وتصنيفهاء والاختلافات 
القائمة بينها. تعريفات الكيانات وحدودها غير متسقة في كثير من الأحيان» وهذا 
يعسد عل ized Sd‏ مض الكحياة: بعد jn‏ ف عل حدود الكبانات مهمة 
منفصلة عن مهمة تحديد نوع كيانات elc MI‏ (شخصء موقع» ...الخ). هناك العديد 


1- http://nerd.eurecom.fr/ontolog 
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من صيغ إضافة التعليقات والشروحات التي ُستخدم عادة للتعرف على مكان بداية 
كيانات الأسماء ومكان نايتها. من بين صيغ التعليقات والشروحات الأكثر شعبية 
صيغة BIO‏ حيث يشير حرف B‏ إلى Beginning‏ أي بداية كيان اسم» ويشير حرف 
1 إلى Inside‏ أي داخل كيان اسم» ويشير حرف O‏ إلى أن «Ouside‏ أي أن الكلمة 
هي مجرد كلمة عادية تقع خارج نطاق كيان الاسم. هناك صيغة أخرى من صيغ 
التعليقات والشروحات تحظى بشعبية كبيرة» وهى صيغة BILOU‏ ]32[ التى تحتوي 
على ملصقات تصنيف إضافية هى حرف L‏ (يشير إلى كلمة cLast‏ ويعنى آخر كلمة في 
كيان الاسم) وحرف U‏ (يشير إلى كلمة Unit‏ ويعني أن الكلمة هي وحدة كاملة» أي 
كيان el‏ 

مثال ١-1“‏ كان السيد روبرت والبول رجل دولة Gllas y‏ يعد عمومًا أول رئيس 
وزراء لبريطانيا العظمى. على الرغم من أن التواريخ الدقيقة لفترة حكمه هي محل نقاش 
علمي» لكن فترة رئاسته على الأرجح في الفترة من WYY‏ إلى 7.11/57 

سياسى: المناصب ا حكومية التي شغلها (المسؤول» المركز/ المخصب/ اللقب» من» 
(Ji‏ 

poe 

السيد روبرت والبول: سيابى» شخص 

المناصب الحكومية التي شغلها (السيد روبرت والبول» رئيس وزراء بريطانيا 
العظمی» QV£Y OVYY‏ 

يعد الغموض من أكبر التحديات الماثلة أمام نظم التعرف على كيانات الأسماء 
وتصنيفها. يمكن أن يؤثر ذلك على العنصرين كليها في مهمة التعرف على كيانات 
الأسماء وتصنيفهاء وهما عنصر التعرف وعنصر التصنيف» كا يؤثر أحيانًا على 
العنصرين Ces‏ في الوقت نفسه. على سبيل المثال» يمكن أن تكون كلمة May‏ (مايو) 


http://en.wikipedia.org/wiki/Robert Walpole المثال من‎ - ١ 
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اسم علم (كيانًا لاسم) أو اسم نكرة (وليس (S CLS‏ هو الحال في صيغة الفعل you‏ 
may go‏ (يمكنك الذهاب))» ولكن حتى عندما تكون كلمة May‏ اسماء فإنها يمكن 
أن تندرج تحت فئات مختلفة (أحد أشهر السنة» أو جزءًا من اسم شخص ما (وفي 
هذه الحالة قد تشير إلى اسم الشخص أو لقبه)» أو جزءًا من اسم إحدى المنظمات). 
تحدث مشكلات التصنيف بصورة متكررة عند التمييز بين شخص ومنظمة» حيث 
تحمل العديد من الشركات أسماء أشخاص (على سبيل المثال: شركة الملابس Austin‏ 
e ELL y (Reed‏ تحمل العديد من الأشياء التى قد لا تكون كيانات أساء» مثل أسماء 
الأمراض والقوانين» أسماء أشخاص أيضًا. على الرغم من أنه يمكن للمرء من الناحية 
الفنية إضافة تعليقات وشروحات لاسم الشخص هناء إلا أن ذلك ليس مرغوبًا فيه 
عادة (نحن لا نهتم في العادة بإضافة التعليقات والشروحات لكلمة باركنسون لتحديد 
في نظرية فيثاغورس). 


o-Y‏ المهام المترابطة 

تحو يل النص الزمني 2 1$ | (Temporal normalization) obal‏ هي مهمة 
التعرف على التعبيرات الزمنية (كيانات الأساء المصنفة كتاريخ أو وقت) وذلك 
بتحويلها إلى الصيغة المعيارية للتواريخ والأوقات. يعد تحويل النص الزمني للشكل 
القياسي» ولا سيا التحويل للتواريخ والأوقات النسبية» ضروريًا لمهام التعرف على 
الأحداث. تكون المهمة في غاية السهولة إذا كان النص يشير أصلاً إلى الوقت بصيغة 
مجردة» على سبيل المثال A»‏ صباحًا». وتصبح المهمة أصعب إذا كان النص يشير إلى 
الوقت بصيغة نسبية» على سبيل JUI‏ «الأسبوع الماضي». في هذه الحالةء يتعين علينا 
Yl‏ تحديد وقت إنشاء النص» وذلك لاستخدامه كنقطة مرجعية للتعبير الزمنى 
النسبي. يعد نظام TimeML‏ ]33[ من بين أشهّر أنظمة إضافة التعليقات والشروحات 
الخاصة بالتعبيرات الزمنية. لا تتضمن غالبية أدوات التعرف على كيانات الأساء 
وتصنيفها تحويل النص الزمني للشكل القياسي كجزء متعارف عليه من عملية التعرف 
على كيانات الأسماء وتصنيفهاء لكن بعض الأدوات تتضمن ملحقات إضافية يمكن 
استخدامها لهذا الغرض. على سبيل المثال» يوجد في نظام gal GATE‏ لتحويل 
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الوقت للشكل القياسي يمكن إضافته إلى نظام -ANNIE‏ ك| يتضمن ملحقا لإضافة 
التعليقات والشروحات الزمنية» يسمى «GATE-Time‏ وهو مبنى على CE‏ 
HeidelTime‏ ]34[ ويتوافق مع معيار TimeML‏ وهو معيار آيزو M (ISO)‏ 
بالتعليقات والشروحات الزمنية الدلالية للوثائق ]35[. SUTime‏ ]36[ هي مكتبة 
أخرى للتعرف على التعبيرات الزمنية وتحويلها للشكل القياسي» وهي متوفرة كجزء 
من منظومة .Stanford CoreNLP‏ تستخدم هذه المكتبة GU‏ حتميا يعتمد على 
القواعد» ومن S‏ يمكن إضافة الملحقات إليها بسهولة. تنتج هذه المكتبة مجموعة من 
التعليقات والشروحات التي تندرج تحت أحد الأنواع الزمنية الأربعة (تاريخ» وقت» 
مدة» مجموعة) المتوافقة مع معيار TIMEX3‏ الخاص بالنوع والقيمة. يشير النوع الزمني 
«مجموعة» غير المعتاد إلى مجموعة من الأوقات» مثل حدث متكرر. 

استخراج الإحالات المشتركة (Co-reference resolution)‏ دف إلى الربط بين 
الإشارات المختلفة للكيان نفسه. وتعد هذه المهمة ذات أهمية نظرًا لأنها تساعد في إيجاد 
العلاقات بين الكيانات في وقت لاحقء كا تساعد كذلك في الربط بين كيانات الأسماء. 
قد تكون الإشارات المختلفة إشارات متطابقة» وفي هذه الحالة تكون المهمة سهلة» وقد 
تكون المهمة أكثر تعقيدًا لأنه يمكن الإشارة إلى الكيان نفسه بطرق مختلفة. على سبيل 
المثال» جون سميث والسيد جون سميث وجون ج. س. سميث وسميث هي كلها 
إشارات إلى الشخص نفسه. وبالمثل» قد يكون لدينا اختصارات United ; U.K.)‏ 
00> أو حتى أساء مستعارة لا تحمل وجه شبه بأسمائها البديلة من الناحية 
الخارجية آي بي el‏ وذا بيغ بلو (the big blue s IBM)‏ باستثناء الصيغة الأخيرة» التي 
يكون فيها الحل الأفضل استخدام قوائم مكونة من أس)ء ثنائية صريحة» تميل الأنظمة 
المبنية على القواعد إلى تقديم أداء فعال في هذه المهمة. على سبيل المثال» على الرغم من 
كون الاختصارات شديدة الغموض في الغالب» لكن عندما يقتصر السياق الذي 
نتحدث عنه على الوثيقة نفسها أو call‏ نادرًا ما يحدث عدم تطابق بين اسم ختصر 
واسم كامل يتطابق مع الأحرف المعنية. بطبيعة الحال» يمكن أيضًا استخدام قوائم 
مكونة من أسماء ثنائية صريحة» كا يمكن كذلك إضافة قوائم الاستثناءات. تعد أداة 
1 الخاصة بمنصة ANNIE‏ مثالا جيدًا على الأدوات الخاصة بتحديد 
الإحالات المشتركة والتي تعتمد اعتمادًا SUIS‏ على القواعد المشفرة يدويًاء حيث تعالج 
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هذه الأداة النصوص الإخبارية بدقة تصل إلى نحو 4°/ ]37[. أداة Stanford Coref‏ 
مدمجة في منظومة Stanford CoreNLP‏ وتستخدم نظامًا متعدد التمرير لاستخراج 
الإحالات المشتركة والإحالات القبلية وقد تم شرح النظام في المرجع [38]. gi‏ نظام 
SANAPHOR‏ بوظائف إضافية عن طريق إضافة طبقة دلالية إلى ما سبق وتحسين 
النتائج. تكون مدخلات هذا النظام عبارة عن مجموعات من الإحالات المشتركة يتم 
توليدها بواسطة أداة «Stanford Coref‏ وبعد ذلك يقوم بفصل المجموعات التى تحتوي 
على إشارات غير مترابطة» ea‏ يدمج بين المجموعات التي ينبغي أن ينتمي بعضها إلى 
بعض. کا يستخدم مخرجات عمليات ربط كيانات الأسماء التي تُستخدم فيها قواعد 
المعرفة YAGO, DBpedia‏ لإزالة الغموض عن الإشارات المتعلقة بكيانات مختلفة» 
ويدمج بين الإشارات المتعلقة بالكيان نفسه. يمكن استخدامه أيضًا في مهام التعرف 
على كيانات الأسماء وتصنيفها ومهام ربط كيانات الأسماء إلى جانب الأدوات الأخرى. 


(NERC) منهجيات التعرف على كيانات الأسماء وتصنيفها‎ IY 

يمكن تقسيم منهجيات مهام التعرف على كيانات الأسماء وتصنيفها بشكل 
تقريبي إلى )١(‏ منهجيات تستند إلى القواعد أو الأناط» و(5) أساليب التعلم الآلي 
أو الاستخراج الإحصائي 401[ وني كثير من الأحيان يمزج بين الأسلوبين (انظر 
[431421]41)). تعتمد غالبية الأساليب القائمة على التعلم الآلي على شكل من 
أشكال الإشراف البشريء باستثناء أساليب استخراج المعلومات ذات الطبيعة اليكلية 
البحتة التي تقوم بإجراء مهام التعلم الآلي غير الخاضعة للإشراف على مستندات تخلو 
من التعليقات والشروحات [44]. كا رأينا سابقاء تتيح منصات هندسة اللغة مثل 
OpenNLP ; Stanford CoreNLP ; GATE‏ و NLTK‏ تنفيذ أساليب وخوارزميات 
استخراج المعلومات على شكل وحدات» وذلك عن طريق إدراج وحدات ille‏ 
مسبقة ووحدات خاصة بمهام التعرف على كيانات الأسماء وتصنيفها في منظومة 
التعرف على كيانات cele YI‏ وهو ما يسمح بإخضاع نتائجها لتجارب وتقييمات قابلة 
للتكرار. يظهر الشكل ١-7‏ مثالا لمنظومة التعرف على كيانات الأسماء وتصنيفها. 
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الشكل :Y- Y‏ منظومة التعرف على كيانات الأسسماء وتصنيفها 


Y- 17 Y‏ المنهجيات القواعدية للتعرف على كيانات الأسماء وتصنيفها 

الأساليب اللغوية المعتمدة على القواعد والمتعلقة بمهام التعرف على كيانات 
الأسماء» مثل الأساليب المستخدمة في نظام استخراج المعلومات ANNIE‏ الخاص 
بمنصة GATE‏ تتكون ale‏ من مزيج من معاجم كيانات الأسماء وقواعد مطابقة 
الأناط المشفرة يدويًا. تستخدم هذه القواعد معلومات مأخوذة من السياق للمساعدة 
في تحديد ما إذا كانت الكيانات المحتملة الموجودة في معاجم كيانات الأسماء صحيحة» 
أو لزيادة عدد الكيانات المحتملة. تعد معاجم كيانات الأسماء بمنزلة نقطة الانطلاق 
التي تتيح تأكيد أو رفض أو تنقيح الكيان النهائي الذي ينبغي استخراجه. تتكون 
منظومة التعرف على كيانات الأسماء وتصنيفها عادة من عملية معالجة لغوية مسبقة 
(تجزئة الجمل» تقسيم الجمل» تصنيف أقسام الكلام) كا سبق حه في الفصل السابق» 
تليها عملية إيجاد الكيان بواسطة معاجم كيانات الأساء والقواعد النحوية» ثم عملية 
استخراج الإحالات المشتركة. 

صممت معاجم كيانات الأسماء لإضافة التعليقات والشروحات البسيطة 
والاعتيادية» مثل الأسماء المعروفة للشركات والمواقع وأيام الأسبوع والمشاهير وما 
إلى ذلك. قد تحتوي معاجم كيانات الأساء النموذجية الخاصة بالتعرف على كيانات 
الأسماء وتصنيفها على مئات أو آلاف المدخلات. غير أن استخدام معاجم كيانات 
الأسماء ليس GS‏ بحد ذاته للتعرف على الكيانات وتصنيفهاء وذلك لأن الكثير من 
الأسماء يتسم بالغموض (على سبيل المثال: «لندن» قد تكون جزءًا من اسم منظمة أو 
شخصء أو قد تكون المدينة المعروفة ببساطة) هذا من ناحية» ومن ناحية أخرى, لا 
يمكنها تحديد كل YLS‏ من كيانات الأساء (على سبيل المثال: في اللغة الإنجليزية لا 
يمكن للمرء أن يحدد مسبقا جنس كل لقب عائلي). لکن عند دمج معاجم كيانات 
الأسماء مع حواشي المعالجة اللغوية الأخرى (بطاقات تصنيف أقسام الكلام» الأحرف 
الكبيرة» وغيرها من الأدلة السياقية الأخرى). فإنها قد تكون قوية جذا. 
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عملية مطابقة الأنماط في مهام التعرف على كيانات الأسماء وتصنيفها تتطلب تطوير 
الأناط بناء على بنيات متعددة الجوانب تأخذ بعين الاعتبار العديد من الخصائص 
المختلفة للكلمات» o‏ فيها طريقة التهجئة (الكتابة بالأحرف الكبيرة في اللغة الإنجليزية) 
والإعراب والمعلومات الخاصة بتصنيف أقسام الكلام وما إلى ذلك. سرعان ما 
أصبحت عملية إدارة اللغات التقليدية المستخدمة في عمليات المطابقة بين الأناط» 
كلغة PERL‏ شديدة الصعوبة بسبب التعقيد عند استخدامها في مهام من هذا القبيل. 
LJ‏ عادة ما تستخدم ترميرًا أو Cs Cs sas‏ بضيخة «الخاصية- القيمة؛ والتي تسمح بأن 
تشير الشروط إلى خصائص بطاقات التصنيف الناحمة عن مستويات تحليل متعددة. من 
الأمثلة على ذلك لغة JAPE‏ وهي لغة لمطابقة قة الأنراط تعتمد على لغة جافا وتستخدم 
في نظام GATE‏ وهي مشتقة من لغة CPSL‏ [45]. تستخدم لغة JAPE‏ ترميرًا تعريفيًا 
بح حا نر داقر ٠‏ كل cd c C‏ بقة bi‏ غير 
حتمية. تقشم القواعد إلى مراحل (مجموعات فرعية) يجرى تنفيذها بصورة متوازية» 
حيث تتكون كل مرحلة من المراحل عادة من قواعد خاصة بنفس نوع الكيان (على 
سبيل المثال: شخص) أو قواعد لها المتطلبات نفسها المحددة التي تكون شرطًا ضروريًا 
لتنفيذها. تتيح مجموعة متنوعة من آليات تحديد الأولوية التعامل مع القواعد المتنافسة» 
وهو ما يجعل التعامل مع الغموض أمرًا ESE‏ على سبيل المثال» قد يفضل المرء الأنماط 
التي تحدث في سياق معين» وقد يفضل نوعًا معيتا من el yl‏ الكيانات على نوع آخر في 
ظرف محدد. تعمل الآليات الأخرى المبنية على القواعد بطريقة 

يمكننا تطبيق قاعدة نموذجية بسيطة لمطابقة الأنزاط» قد تكون المهمة التي تقو 

مطابقة جميع أسماء الجامعات» على سبيل JEU‏ جامعة در جم وه 
النمط من كلمة «جامعة» يليها اسم «المدينة». باستخدام معاجم كيانات الأسماء» يمكننا 
التحقق من ورود ذكر اسم مدينة ما مثل شيفيلد أو بريستول. أما القواعد الأكثر تعقيدًاء 
فيمكن استخدامها للتعرف على اسم آي منظمة من خلال البحث عن كلمة مفتاحية 
داخل معجم كيانات أسماء يرد ذكرها إلى جانب اسم علم واحد أو أكثر ee‏ تعثر 
عليه أداة تصنيف أقسام الكلام) مثل شركة» منظمة» مؤسسة تجارية» مدرسة» الخ» 
ويحتمل أيضًا أن تحنوي على بعض الكلمات الوظيفية. على الرغم من كون هذه الأنواع 

من القواعد فعالة جدًا في مطابقة بقة BIYI‏ المعتادة (ورغم كونها تعمل بشكل جيد مع 
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بعض أنواع الكيانات كالأشخاص والمواقع والتواريخ)» إلا Vel‏ يمكن أن تكون 
شديدة الغموض. قارن Ss‏ اسم الشركة General Motors‏ (جنرال موتورز) واسم 
الشخص General Carpenter‏ (الجنرال كاربنتر) وشبه الجملة Major Disaster‏ 
(كارثة كبرى) (التي لا تشير إلى أي «Os‏ لترى بسهولة أن مثل هذه الأناط لا يؤدي 
الغرض بصورة كافية. على الجانب الآخرء قد يكون أداء المنهجيات التى تعتمد على 
التعلم جيدًا في التعرف على أن كلمة disaster‏ (كارثة) لا تكون عادة جزءًا من اسم 
شخص أو منظمة, لأنها لا تظهر على هذا النحو مطلقا في مكنز التدريب. 

كما أوردنا سابقاء يجري تطوير الأنظمة القواعدية SU‏ على الخصائص اللغوية» مثل 
بطاقات تصنيف أقسام الكلام أو المعلومات المستقاة من السياق. وبدلاً من وضع هذه 
القواعد بصورة يدوية» من الممكن وضع علامات على الأمثلة التدريبية» ومن ثمٌّ تعلم 
القواعد بصورة آلية باستخدام أنظمة تعلم القواعد (تعرف أيضًا بأنظمة استقراء أو 
استنتاج الأدلة). عن طريق التعلم الخاضع للإشراف» تقوم هذه الأنظمة باستنتاج 
مجموعات القواعد من الأمثلة التدريبية التى وضعت عليها العلامات. كانت هذه 
الأنظمة تحظى بشعبية في أنظمة التعلم المبكرة التي كانت تُستخدم في مهام التعرف 
على كيانات الأسماء وتصنيفهاء OUS‏ من بينها أنظمة من قبيل SRV‏ ]46[ و RAPIER‏ 
.[50]LP? , [49] BWI, [48] WHISK ; [47]‏ 


Y- 3-7 Y‏ المنهجيات الخاضعة للإشراف للتعرف على كيانات الأسماء وتصنيفها 
LOU‏ ظهرت منهجيات التعلم الخاضع للإشراف بعد منهجيات التعلم المعتمدة 
على القواعد. تتعلم منهجيات التعلم الخاضع للإشراف أوزان الخصائص» وذلك بناءً 
على احتمال ظهورها في أمثلة تدريبية خاطئة مقابل أمثلة تدريبية صحيحة» وذلك لكل 
نوع حدد من el pl‏ كيانات الأسماء. بشكل cele‏ يتكون منهج التعلم الخاضع للإشراف 
من هس مراحل: 
e‏ المعالحة اللغوية المسبقة؛ 
* استخراج الخصائص؛ 
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تطبيق الناذج على بيانات الاختبار؛ 


* المعالجة اللاحقة للنتائج لتصنيف المستندات. 
المعالجة اللغوية المسبقة تشمل كحد أدنى تجزئة الجمل إلى وحدات لغوية وتقسيم 


NS 


كا يمكن أن تشمل التحليل الصرفي وتصنيف أقسام الكلام واستخراج 


الإحالات المشتركة والتحليل الإعرابي» كا سبق شرحه في الفصل الثاني» وهذا يعتمد 
على الخصائص المستخدمة. تشمل الخصائص الشائعة ما يل: 


الخصائص الصرفية: استخدام الأحرف الكبيرة [في اللغة الإنجليزية]» وجود 
الرموز الخاصة (مثال: $( 

خصائص أقسام الكلام: علامات ظهور كل قسم منها؛ 

خصائص السياق: الكلءات الموجودة بجوار الكلمة المعنية وتصنيف أقسام 
الكلام التى تنتمى إليها هذه «usi‏ والتى تتراوح عادة بين كلمة واحدة 
وثلاث کلات؛ 

خصائص معجم كيانات الأساء: ورود الكلمة المعنية في معاجم كيانات 
الأسماء؛ 

الخصائص النحوية: خصائص مبنية على نتائج التحليل الإعرابي للجملة؛ 
خصائص قثيل الكلمات: الخصائص البنية على التدريب غير الخاضع 
للإشراف باستخدام نص يخلو من ملصقات أو بطاقات التصنيف. على سبيل 
المثال: باستخدام طريقة براون لتجميع الكليات (Brown clustering)‏ أو 
تضمينات .(word embeddings) c» SJ!‏ 


تستخدم الأساليب الإحصائية للتعرف على الكيانات المساة وتصنيفها تشكيلة 
متنوعة من النماذج» مثل نماذج ماركوف المخفية (HMMs)‏ 511 أو ناذج الإنتروبيا 
القصوى (Maximum Entropy models)‏ ]52[ أو آلات المتجه الداعم (SVMs)‏ 
E54] E53]‏ ]55[« أو a‏ البيرسبترونز (Perceptrons).‏ ]56[ ]57[ أو الحقول 
الشرطية العشوائية 581(CRF8)‏ ,59 أو الشبكات العصبية ]60[ المنهجيات الأكثر 
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نجاحًا في التعرف على كيانات الأسماء وتصنيفها تشمل المنهجيات المبنية على الحقول 
الشرطية العشوائية» والشبكات العصبية ذات المستويات المتعددة التى ظهرت حديثا. 
وللمهتم بمعرفة المزيد عن خوارزميات التعلم الآلي يمكن الرجوع إلى [61 ,162 

الحقول العشوائية الشرطية (CRF)‏ تقوم بنمذجة مهمة التعرف على كيانات الأسماء 
وتصنيفها (NERC)‏ لتكون بمنزلة منهجية للتصنيف بناء على متسلسلات» أي جعل 
بطاقات تصنيف الوحدات اللغوية يعتمد على بطاقات تصنيف الوحدات السابقة 
واللاحقة في جزء معين من التسلسل. من أمثلة أطر العمل المتاحة لمهام التعرف على 
كيانات الأسماء وتصنيفها (NERO)‏ المبنية على الحقول الشرطية العشوائية إطار عمل 
Stanford NER‏ وإطار عمل 0R ۴Se‏ . يحتوي كلاهما على أدوات لاستخراج 
ا لخصائص وناذج مدربة باستخدام بيانات Esa‏ تعلم اللغات الطبيعية في عام Y Y‏ 
(ConLL 2003)‏ ]28[. 


تتميز منهجيات الشبكات العصبية ذات المستويات المتعددة بميزتين. أولآء تتعلم 
هذه المنهجيات الخصائص الكامنة أو الضمنية» بمعنى أنها لا تتطلب إجراء معالحة 
لغوية تتعدى تقسيم الجمل وتجزتتها إلى وحدات لغوية. هذا الأمر يجعلها أكثر فعالية 
في شتى المجالات مقارنة بالمياكل المبنية على الخصائص الصريحة» وذلك لأنها ليست 
مضطرة للتعويض عن الأخطاء التي تحدث أثناء إجراء المعالجة اللغوية المسبقة. «GU‏ 
يمكنها أن تدمج بسهولة بين النصوص التي تخلو من العلامات التصنيفية» والتي 
يمكن تدريب أساليب استخراج الخصائص على LENEE‏ يستخدم نظام SENNA‏ 
]60[ المتطور الخاص بالتعرف على كيانات الأسماء وتصنيفها هيكلا متعدد المستويات 
من الشبكات العصبية؛ إلى جانب تدريب غير خاضع للإشراف. يتوفر هذا النظام إما 
بشكل منفصل”" أو كجزء من إطار عمل PDeepNL‏ ومثل| هو الخال مع أطر العمل 
المذكورة أعلاه» يتم توزيع هذا النظام مرفقا بأدوات لاستخراج الخصائصء كما يوفر 

خاصية تدريب النهاذج على بيانات جديدة. 
I-http://nlp.stanford.edu/software/CRF-NER.shtml - http://www.chokkan.org/software/crfsuite/‏ 
http;//ronan.collobert.com/senna/‏ -2 


3- https://github.com/attardi/deepnl 
4- http://uima.apache.org 
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هناك مزايا وعيوب في منهجيات التعلم الخاضعة للإشراف عندما يتعلق الأمر 
بالتعرف على كيانات الأساء وتصنيفهاء مقارنة باستخدام منهجيات الهندسة المعرفية 
القواعدية. تتطلب كلتا المنهجيتين بذل جهد يدويء إذ تتطلب المنهجيات القواعدية 
متخصصين لغويين ليقوموا بوضع قواعد مشفرة يدويًا» في حين تتطلب المنهجيات 
القائمة على التعلم الخاضعة للإشراف بيانات تدريبية مشروحة» وهو ما يلغي الحاجة 
لوجود متخصصين لغويين. تعتمد المنهجية الأنسب لسيناريو تطبيقي معين على طبيعة 
التطبيق وعلى المجال. عندما يتعلق الأمر بالمجالات الشائعة» كالنصوص الإخبارية» 
تتوفر بيانات تدريبية مصنفة يدويّاء في حين قد يكون من المطلوب إنشاء مثل هذه 
البيانات التدريبية بدءًا من الصفر بالنسبة للمجالات الأخرى. إذا كان التباين اللغوي 
في النص طفيفًا di‏ وهناك حاجة للحصول على النتائج بسرعة» فقد تكون القواعد 
المشفرة يدويًا نقطة انطلاق أفضل. 


۷-۳ أدوات التعرف على كيانات الأساء وتصنيفها 

يعد نظام ANNIE‏ متعدد الأغراض الخاص بمنصة GATE‏ المستخدم للتعرف على 
كيانات الأسماء وتصنيفها مثالا نموذجيًا للأنظمة القواعدية. ara‏ هذا النظام لغرض 
التعرف على كيانات الأسماء وتصنيفها في النصوص الإخبارية» لكن نظرًا لسهولة 
تكييفه» يمكن أن يشكل نقطة الانطلاق للتطبيقات الجديدة في مجال التعرف على كيانات 
الأسماء التي يتم تطويرها للغات والمجالات الأخرى وتصنيفها. تتضمن منصة GATE‏ 
أدوات للتعلم «AI‏ ما يعني أنه يمكن استخدامها لتدريب ناذج التعرف على كيانات 
الأسماء وتصنيفها أيصًاء بناءَ على مكونات المعالحة اللغوية المسبقة التى ورد شرحها في 
الفصل الثاني. تشمل الأنظمة الأخرى الأقل شهرة نظام OUMA‏ المطور من قبل 
شركة آي بي إم» والذي يركز أكثر على الدعم Al‏ وسرعة المعالجة» ويوفر عددًا من 
الموارد الماثلة لمنصة «GATE‏ ونظام «"OpenCalaisK‏ الذي يوفر خدمة ويب لتحشية 
النصوص بالدلالات لأنواع كيانات الأساء التقليدية» ونظام "LingPipe‏ الذي يقدم 


1- http;//www.opencalais.com/ 
2- http://alias-1.com/lingpipe/index.html 
3- https://github.com/xiaoling/figer 
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مجموعة (محدودة) من ناذج التعلم الآلي لشتى المهام والمجالات. على الرغم من كون 
هذه الأنظمة عالية الدقةء إلا أنها ليست سهلة التكييف مع تطبيقات عملية جديدة. 
في واقع الأمرء توجد مكونات من جميع هذه الآدوات في نظام GATE‏ وذلك Sae‏ 
تمكين المستخدم من الجمع والتوليف بين الموارد المختلفة حسب الحاجة» أو المقارنة بين 
عمل الخوارزميات المختلفة على المكنز نفسه. غير أن المكونات المقدمة تكون بشكل عام 
على شكل ناذج سبق تدريبهاء ولا توفر عادة جميع وظائف الأدوات الأصلية. 

يعد نظام Stanford NER‏ المرفق بمنظومة Stanford CoreNLP‏ عبارة عن وحدة 
برمجية مكتوبة بلغة جافا للتعرف على كيانات الأسماء. يشتمل هذا النظام على أدوات 
ذات تصميم هندسي جيد للتعرف على كيانات الأسماء وتصنيفهاء کا يوجد فيه عدد من 
الخيارات لتحديد هذه الأدوات. إضافة إلى النموذج المعتاد لكيانات الأسماء المكون من 
cota 3‏ (الأشخاصء المنظمات. المواقع)» يتضمن هذا النظام أيضًا eso‏ أخرى للغات 
المختلفة» وناذج مدربة على مجموعات مختلفة. المنهجية التي يستخدمها هذا النظام هي 
تطبيق عام لناذج تسلسلات الحقول الشرطية العشوائية ذات السلسلة الخطية» ولذا 
يمكن للمستخدم إعادة تدريبها بسهولة باستخدام أي بيانات مصنفة أخرى. يُستخدم 
نظام Stanford NER‏ كذلك في منصة NLTK‏ التي لا تتضمن أداة خاصة بها للتعرف 
على كيانات الأساء وتصنيفها. 

تحتوي منصة OpenNLP‏ على وحدة NameFinder‏ الخاصة بمهمة التعرف 
على كيانات الأسماء وتصنيفها (NERO)‏ باللغة الإنجليزية» وبدورها تشتمل مهمة 
NERC‏ على وحدات منفصلة خاصة بأنواع كيانات الأسماء السبعة المتعارف عليها 
وفقا لتصنيف مؤتمرات فهم الرسائل (MUC)‏ (شخصء منظمة» موقع» تاريخ» 
وقت» مال» نسبة مثوية)» وهي مدربة على قواعد بيانات قياسية متاحة Úle‏ تحتوي 
JB els de às ay eiit Ms e asi Lebe cà de LÁ‏ 
تعلم اللغات الطبيعية L5 5 (CONLL)‏ هو JLH‏ مع أداة Stanford NER‏ بإمكان 
المستخدم إعادة تدريب وحدة NameFinder‏ باستخدام أي بيانات مصنفة. وعلى 
غرار الأدوات الأخرى القائمة على التعلم المذكورة أعلاه» ونظرًا لاعتمادها على التعلم 
الخاضع للإشراف» تعمل هذه الأدوات بشكل جيد فقط عند وجود كميات كبيرة من 
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البيانات التدريبية المشتملة على الحواشى» لذا قد تكون هناك إشكالية عند تطبيقها على 
محالات وأنواع نصوص جديدة إن لم توجد مثل هذه البيانات. 

يعد نظام ]63[ 27510611 مثالا للأنظمة التي تقوم بمهام التعرف على كيانات 
الأسماء وتصنيفها في مستويات تفصيلية دقيقة (fine-grained)‏ نظام FIGER‏ 
مدرب على موسوعة ويكيبيديا. تتألف بطاقات التصنيف في نظام FIGER‏ من ١١7‏ 
نوعاء وهي مشتقة من قاعدة Freebase‏ المعرفية عن طريق اختيار الأنواع SI‏ 
تكرارًا ودمج الأنواع الأكثر دقة. يتمثل ال هدف في إجراء تصنيف متعدد الفئات ومتعدد 
التصنيفات» بمعنى أن كل سلسلة من سلاسل الكلمات تُعطَّى فئة واحدة أو عدة فئات» 
وقد لا uas‏ أي فئة. يجري إعداد البيانات التدريبية لنظام FIGER‏ عبر استغلال 
النص غير المشفر للكيانات المذكورة في حواشي وتعليقات موسوعة ويكيبيدياء بمعنى 
أن كل سلسلة من الكلمات الموجودة في جملة معينة تُربط بمجموعة من أنواع الكيانات 
الموجودة في قاعدة Freebase‏ المعرفية» INE‏ كبيانات تدريبية إيجابية (صحيحة) 
لتلك الأنواع. يتم تدريب النظام باستخدام عملية مكونة من خطوتين» أولاهما تدريب 
نموذج حقل شرطي عشوائي للتعرف على حدود كيانات الأسماء» egit s‏ تدريب 
خوارزمية بيرسبترون معدلة لتصنيف كيانات الأسماء. في العادة» بستخدم نموذج حقل 
شرطي عشوائي للقيام AS‏ المهمتين في وقت واحد (مثال 641( لكن يتم تجنب ذلك 
هنا بسبب المجموعة الكبيرة من أنواع كيانات الأسماء. وبخصوص الأدوات الأخرى 
للتعرف على كيانات الأسماء» يمكن إعادة تدريبها بسهولة باستخدام بيانات جديدة. 


۸-۳ التعرف على كيانات الأسماء وتصنيفها في شبكات التواصل الاجتماعي 
تعد الأبحاث في مجال التعرف على كيانات الأساء في تغريدات تويتر وتصنيفها من 
مجالات البحث الساخنة» وذلك لوجود العديد من المهام التي تعتمد على تحليل محتوى 
شبكات التواصل eue YI‏ كما سنناقش في الفصل الثامن. تمثل شبكات التواصل 
الاجتماعي تحديًا من نوع خاص أمام مهام التعرف على كيانات الأسماء وتصنيفهاء 
وذلك بسبب طبيعتها المشوشة (وجود أخطاء في الإملاء وعلامات الترقيم واستخدام 


1- http;//www.aclweb.org/aclwiki/index.php?title-CONLL-2003 (State of the art) 
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الأحرف الكبيرة» واستخدام الكلمات بطرق مستحدثة» ...الخ)» وهو ما يؤثر في 
مكونات المعالجة المسبقة المطلوبة (ومن ثم يؤثر في أداء مكون التعرف على كيانات 
الأسماء وتصنيفها) وعلى كيانات الأساء نفسها التي يصبح التعرف عليها أكثر صعوبة. 
ونظرًا لعدم وجود مكانز ذات حواش وتعليقات» عادة ما ينظر عمومًا إلى عملية التعرف 
على كيانات الأسماء في شبكات التواصل الاجتماعي وتصنيفها باستخدام منهجية تستند 
إلى التعلم على آنا مشكلة تتعلق بتكييف مهمة التعرف على كيانات الأسماء وتصنيفها 
مع جال جديد انتقالا من النصوص الإخبارية» وغالبًا ما تدمج هذه العملية بين نوعي 
البيانات cells‏ لغرض إجراء التدريب ]65[ وتتضمن خطوة إضافية وهي تحويل نص 
التغريدات إلى الشكل القياسي [66]. من بين التحديات المحددة تحدي المصطلحات 
(الكيانات) الحديثة» فغالبًا ما تكون أنواع كيانات الأسماء التي نريد التعرف عليها في 
شبكات التواصل الاجتماعى ناشئة حديثا (على سبيل المثال قصص إخبارية حديثة 
تعلق باشخاض 1S6 d‏ مشهز رين LÀ s (Lo‏ لا 0,55 هذه الكيانات ف العادة 
موجودة في معاجم كيانات الأسماء أو حتى في قواعد البيانات المترابطة مثل „DBpedia‏ 
هناك تح آخر وهو أن السياق المتنوع ]67 وكذلك إطار السياق الأصغر [68] يجعل 
من الصعب التعرف على كيانات الأسماء وتصنيفهاء فعلى عكس المقالات الإخبارية 
الطويلة؛ تتوفر كمية قليلة من معلومات الخطاب في كل تغريدة» والهيكل المتسلسل مجزاً 
عبر وثائق متعددة» (S‏ يتدفق في اتجاهات متعددة. سنناقش عملية التعرف على كيانات 
الأسماء وتصنيفها في شبكات التواصل الاجتماعي بوضوح في الفصل الثامن. 
٩-۳‏ الأداء 

بشكل عام» يقل أداء مهمة التعرف على كيانات الأساء وتصنيفها عن أداء مهام 
المعالجة المسبقة الموجودة في منظومة معالجة اللغات الطبيعية» مثل مهمة تصنيف أقسام 
الكلام» لكن يمكنه الوصول إلى درجات 1 تزيد نسبتها على ./4٠‏ يعتمد elal‏ مهمة 
التعرف على كيانات الآسماء وتصنيفها على مجموعة متنوعة من العوامل» با فيها نوع 
النص (على سبيل المثال: النصوص الإخبارية» محتوى شبكات التواصل الاجتماعي) 
ونوع OLII‏ المسمى (مثال: شخص. موقع» منظمة) وحجم المكنز التدريبي المتوفر» 
والعامل الأهم هو مدى اختلاف المكنز الذي جرى على أساسه تطوير مهمة التعرف 
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على كيانات الأسماء عن النص الذي تُعالجه هذه المهمة [69]. في مؤتمرات المنافسة لتقييم 
عملية التعرف على كيانات الأساء وتصنيفهاء تتمثل المهمة ale‏ في تدريب الأنظمة 
واختبارها على أقسام مختلفة من المكنز نفسه (تُعرف أيضًا بالأداء داخل المجال)» بمعنى 
أ نمك JL VE‏ يكون Vis‏ جدا Sd‏ التدروب: 

لإعطاء مؤشر على الأداء داخل المجال المشار إليه» يصل أداء git‏ الحديثة في 
مكنز مؤتمر تعلم اللغات الطبيعية لعام (ConLL 2003) ۲٠٠۳‏ الذي يعد أشهر 
مكنز إخباري يتضمن حواشي وتعليقات التعرف على كيانات الأسماء وتصنيفها إلى 
Jui c3 JE d fA, FI‏ النظام الأفضل من حيث الأداء هو [70]. في 
المقابل» 1 تحقق الأداة الفائزة بمهمة التعرف على كيانات الأسماء في شبكات التواصل 
Gear y isole YI‏ خلال X5‏ عمل ell‏ الشتركة ue gll p‏ الشوش ge‏ 
على يد المستخدم لعام 2015 CWNUT)‏ ]70 ,71 سوى نسبة أداء (S Lo, EN FL‏ 
حققت نسبة أداء ١ , ٦‏ في مهمة التعرف على كيانات الأسماء. من الواضح أن مهمة 
التعرف على كيانات الأسماء وتصنيفها أكثر صعوبة بكثير من مهمة التعرف على كيانات 
الأسماء؛ وأن مهمة التعرف على كيانات الأسماء وتصنيفها في مكانز شبكات التواصل 
الاجتماعي الموجودة حاليًا أكثر صعوبة من مهمة التعرف على كيانات الأسماء وتصنيفها 
في مكانز المحتوى الإخباري. جدير بالذكر أن المكانز تختلف أيضًا في حجمهاء وهذا 
الأمر طبيعي. توجد مكانز ذات حواش وتعليقات خاصة بالتعرف على كيانات الأسماء 
وتصنيفها للنصوص الإخبارية» إلا أن محتوى شبكات التواصل الاجتماعي لا يزال 
يقر اليس TESTEN WEN ASPICE‏ 
مكانز شبكات التواصل الاجتماعي أسواً بكثير ]69[ ينطبق هذا الأمر بشكل خاص 
على حتوى شبكات التواصل الاجتاعى» حيث تتغير الكيانات بسرعة كبيرة. في الممارسة 
العملية» نعني بذلك أنه بعد بضع رك قد تصبح بيانات التدريب المستخدمة الآن 
عديمة الجدوى QE‏ 


1- http;//www.nist.gov/tac/2014/KBP/SF Validation/index.html 
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٠١-۴۳‏ خلاصة 
في هذا الفصل» شرحنا مهمة التعرف على كيانات الأساء وتصنيفها والمهمتين 
الفرعيتين اللتين تشتمل عليههاء وهما مهمة التعرف على حدود الكيانات ومهمة 
تصنيف الكيانات إلى أنواع. كا أوضحنا سبب الحاجة إلى وجود التقنيات اللغوية 
التي ورد شرحها في الفصل السابق لإتمام هذه ialll‏ وكيفية استخدام تلك التقنيات 
في كل من منهجي التعلم القائم على القواعد والتعلم الآلي. وعلى غرار معظم مهام 
معالجة اللغات الطبيعية التالية التى سنشرحها في بقية الكتاب» تعد مهمة التعرف على 
كيانات الأسماء وتصنيفها النقطة التي تبدأ الصعوبة عندها بحيث تصبح المهام التالية 
أكثر تعقيدًا. بشكل أساسيء جميع المهام اللغوية التي تقوم بعملية المعالجة المسبقة ها 
هدف وتعريف متماثل جداء وهذا الأمر لا يختلف تبعًا للغرض الذي ستستخدم هذه 
المهام من أجله. تختلف مهمة التعرف على كيانات الأسماء» وكذلك المهام الأخرى من 
قبيل استخراج العلاقات وتحليل المشاعر وغيرهماء تختلف اختلافا كبيرًا في تعريفاتهاء 
وهذا يعتمد على سبب الحاجة هذه المهام. على سبيل المثال» قد تختلف أنواع كيانات 
الأسماء اختلافا شاسعًا عن أنواع الكيانات القياسية المعتمدة من قبل مؤتمرات فهم 
الرسائل  (MUC)‏ وهي الأشخاص والمنظمات والمواقع» لتصبح أنواع كيانات الأسماء 
أكثر تفصيلاً ودقة وتشمل أنواعًا أكثر من ذلك بكثير» وهو ما يجعل طبيعة المهمة ختلفة 
US‏ من هنا يمك للمرء أيضًا الذهات خط أبعد وإضاقة حراكن فلات أكثر 
دلالة» وذلك عبر ربط الكيانات بمصادر بيانات خارجية مثل «Freebase s DBpedia‏ 
كما سنرى في الفصل الخامس. على الرغم من ذلك» تتسم أساليب التعرف على كيانات 
الأسماء وتصنيفها بقابليتها للاستخدام المتكرر (في بعض السياقات) حتى عندما تختلف 
المهمة بصورة جوهرية» على الرغم من أن بعض أساليب التعلم الآلي مثلاً قد تعمل 
بطريقة أسوأ أو أفضل حسب مستويات تصنيف أنواع الكيانات المختلفة. في الفصل 
التالي» سوف نلقي نظرة على كيفية الربط بين كيانات الأسماء بواسطة العلاقات» مثل 

المؤلفين وكتبهم» أو الموظفين وشركاتهم. 
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١-٤‏ مقدمة 
تعنى مهمة استخراج العلاقات (RE)‏ باستخراج الروابط بين العلاقات» وهذه 
المهمة تعتمد على مهمة التعرف على كيانات الأساء التي ناقشناها في الفصل السابق. 
في العادة يكون حور ela I‏ في هذه المهمة استخراج العلاقات الثنائية بين كيانات 
الأسماء» لكنها قد تشمل أيضًا استخراج علاقات أكثر تعقيدًا مثل الأحداث. تشمل 
أنواع العلاقات ale‏ علاقات مثل تاريخ ميلاد (شخصء تاريخ) ومؤسس (شخص» 
منظمة)» وتشمل أمثلة العلاقات تاريخ ميلاد (جون سميث» 0١-01-1940‏ ) أو 

مؤسس كيان (بيل جيتسء مايكروسوفت). 

قد تكون مهمة استخراج العلاقات مرتبطة بالتعليقات والشروحات» أي إضافة 
العلاقات والشروحات إلى النصء لكنها تعد في العادة مهمة لملء الفتحات» کا تسمى 
أيضًا مهمة تعبئة قواعد المعرفة» أي تعبئة قاعدة معرفة معينة بالعلاقات لمجموعة معينة 
من أنواع العلاقة (تُعرف باسم مخطط العلاقة). يمكن تقسيم هذه المهمة إلى ثلاث مهام 
فرعية: تحديد معطيات العلاقة (إيجاد حدود المعطيات)» تصنيف معطيات BAJ‏ 
(تحديد أنواع المعطيات)» وتصنيف BAJI‏ (تحديد نوع العلاقة) [73]. بصفة cisle‏ 
يجري تنفيذ المهمتين الأوليين باستخدام عملية التعرف على كيانات الأسماء وتصنيفها. 
لإجراء عملية إضافة التعليقات والشروحات الدلالية (راجع القسم الخامس من هذا 
(C Lal‏ هناك خطوة إضافية تتمثل في ربط معطيات العلاقات بمدخلات قاعدة 
بيانات معينة باستخدام أساليب ربط كيانات الأسماء NEL)‏ 


من بين المشكلاات التى تواجهها منهجيات استخراج العلاقات الاختلااف الكبير 
بين مخططات العلاقات» فعلى عكس مهمة التعرف على كيانات الأساء» لا توجد 
مجموعة صغيرة من أنواع الكيانات المعيارية مشتركة بين الأنظمة المختلفة. يعتمد 
المخطط المستخدم إلى حد بعيد على طبيعة التطبيق. في بعض الحالات» يستخدم مخطط 
أنطولوجيا موجود cD‏ على سبيل المثال d YAGO bhè‏ حين يجري إنشاء مخطط 
خاص بالمهمة في الحالات الأخرى. لهذا السبب» يقل عدد أنظمة استخراج العلاقات 
الجاهزة عن عدد أنظمة التعرف على كيانات الأساء الجاهزة. 
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هناك مشكلة آخرى» وهي أن أنواع العلاقات قد تتداخل أو تتبع إحداها الأخرى. 
على سبيل المثال» الرئيس التنفيذي ل(شخص. مؤسسة) هي علاقة تندرج بشكل كامل 
تحت علاقة موظف في (شخص» مؤسسة»» len‏ يوجد تداخل قوي فقطء في المقابل لا 
توجد علاقة تستلزم التداخل بين الكيانين بلد AM‏ ((شخصء موقع) وبلد الإقامة 
(شخص. موقع). في بعض الأحيان» sa‏ خطط العلاقات الضمني تعريف علاقات 
التلازم هذه» ومن ثم يمكن استخدامه لتحسين أداء عملية استخراج العلاقة [74]. 

dos‏ تجدر الإشارة إلى أنه كلما كانت العلاقة أشمل وأكثر تكراراء كان من السهل 
تحقيق أداء أعلى في عملية استخراج تلك العلاقة. 

۲-٤‏ مسار عملية استخراج العلاقات 

هيدف هذا القسم إلى تقديم شرح لمنهجية استخراج العلاقة النموذجية. يظهر 
الشكل ١-5‏ نظرة عامة رسومية لمنظومة استخراج العلاقات. لاحظ أن هناك عدة 
أشكال لهذه المنهجية» كا سنشرح في الأقسام التالية. 
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في العادة» تكون مدخلات مهمة استخراج العلاقة عبارة عن مجوعة من الوثائق 
التدريبية ووثائق الاختبار وقالب استخراج العلاقة. يحدد قالب الاستخراج تعريف 
العلاقات التي ينبغي استخراجها وطريقة تعريفهاء أي كم عدد المعطيات التي توجد 
فيها وما المفاهيم التي تنتمي إليها تلك المعطيات. على سبيل JA‏ تُعرّف العلاقة 
(مؤسس) كعلاقة بین شخص | (PER)‏ ومنظمة ORG)‏ مؤسس (شخص» مؤسس)» 
وهي من علاقات القوائم» أي يحتمل أا قد تتضمن أكثر من مفعول به واحد (مؤسس) 
لكل فاعل وعلاقة. لا تعطى أنواع كيانات الأسماء بصورة مفصلة «lo‏ على de‏ 
المثال» لم تقدم مهمة ملء الفتحات في مؤتمر تحليل النصوص لعام 2014 TAC KBP)‏ 
4 نوع الكيان المسمى الخاص بالمفعول به في العلاقة [75]. تمر الوثائق بعد ذلك 
بعملية LLN‏ المسبقة التي تشمل تنفيذ عدة خطوات تندرج ضمن عملية معالجة اللغة 
الطبيعية مدف تحديد الطبيعة الصرفية والنحوية والدلالية للجملة. dag‏ خطوات 
المعالجة المسبقة هذه إلى المساعدة في «فهم» النص من أجل تسهيل عملية استخراج 
العلاقات. 

تعد مهمة التعرف على كيانات الأسماء وتصنيفها من أهم خطوات المعالجة اللغوية 
المسبقة؛ والسبب هو أن العلاقات تُستخلص إما بين كيانات الأساء فقطء أو بين خلبط 
من كيانات الأساء والمفاهيم العامة (مثال: شخص». كا ذكرنا في القسم السابق. 
على سبيل المخال» يُعطى OLII‏ بيل جيتس النوع شخص (PER)‏ ويعطى الكيان 
مايكروسوفت النوع مؤسسة (ORG)‏ في الماضي» ميّزت الجهود الأولى التي بُذلت من 
أجل تقييم العلاقات خلال مؤتمرات فهم الرسائل بين أنواع كيانات الأسماء شخص 
(PER)‏ وموقع (LOC)‏ ومؤسسة (ORG)‏ ومتفرقات (MISC)‏ ]25[ على الرغم من 
إمكانية استخدام أنواع مفصلة أكثر (مثل سياسي» فيلم)» وذلك حسب طبيعة قالب 
استخراج العلاقة. 

بعد تنفيذ عملية المعالجة المسبقة» تستخدم وثائق التدريب لتطوير أدوات استخراج 
العلاقات» وبعد ذلك تُطبق على وثائق الاختبار من أجل استخراج العلاقات. في 
حال استخراج أكثر من علاقة واحدة لكل قالب» يتم إثبات صحة تلك العلاقات 
المستخرجة. قد يكون تعريف العلاقات عاملاً مساعدًا في هذا الجانب. على سبيل 


م04 - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


المثال» قد يكون لشركة ما أكثر من مؤسس واحد» لكن كل شخص لديه أبوان حقيقيان 
-ليس بالتبني- وبناءً على ذلك يتقرر عدد العلاقات التي ينبغي استخراجها لكل فاعل 
في كل علاقة. 

تكون مخرجات عملية استخراج العلاقة على شكل مجموعة من وثائق الاختبار ذات 
حواش (تُدعى غالبًا عملية استخراج على مستوى الجملة) أو على شكل قائمة مكونة 
من مستخلصات ثلاثية (استخراج على مستوى الكيان). في حال كون المخرجات على 
شكل قائمة مستخلصات» يمكن استخدامها لتعبئة قواعد المعرفة. يقدم القسم التالي 
مزيدًا من التفصيل عن قواعد المعرفة ودورها في مهمة استخراج العلاقات. 


Y- €‏ العلاقة بين مهمة استخراج العلاقات والمهام الأخرى 

تُعرّف مهمة استخراج العلاقات بصفة عامة بأنها استخراج إشارات العلاقات إلى 
جانب معطياتها من النص. عند الحديث عن مهمة استخراج العلاقات التقليدية» تُعرّف 
أنواع العلاقات ومعطياتها داخل مخططء في حين لا تُعرّف أنواع العلاقات مسبقًا عندما 
يتعلق الأمر بعملية استخراج المعلومات المفتوحة ]76[ حيث تكون أنواع العلاقات 
غير معرفة مسبقا. فعلى سبيل المثال (( شخصء ولد في» تاريخ) هذا من الأمثلة على قالب 
العلاقات الثنائية» على الرغم من أن معطيات العلاقات قد تزيد عن اثنين» على سبيل 
Jed‏ المناصب الحكومية. كا رأينا سابقاء تبنى مهمة استخراج العلاقات على مهمة 
التعرف على كيانات الأساء وتصنيفهاء وذلك لأنه يجب تحديد الكيانات أولا لكي 
تستخلص العلاقات القائمة بينها. 

هناك العديد من التحديات في مهمة استخراج العلاقات» فإلى جانب المشكلات 
الموجودة في عملية التعرف على كيانات الأساء وتصنيفهاء يتمثل التحدي الرئيس في 
إمكانية التعبير عن العلاقات بطرق مختلفة. على سبيل المثال» يمكن التعبير عن العلاقة 
(ولد) بعدة طرق» مثل (مولده في» أو تاريخ ميلاده في أو أبصر النور للمرة الأولى في). 
إضافة إلى ذلك» ليست تعبيرات العلاقات خاصة بعلاقة واحدة clo‏ على سبيل JEU‏ 
يمكن أن تعني العلاقة (يعمل GÀ‏ إما (موظف في أو الرئيس التنفيذي ل). تتسم بعض 
تعبيرات العلاقات أيضًا بالغموض الشديد» على سبيل المثال» عندما نقول: «الطيور) 
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لألفريد هيتشكوك كانت ذات شعبية واسعة. في تلك الحالة؛ يكون السياق مفيدًا die‏ 
أي بها أن ألفريد هيتشكوك كان صانع أفلام» من المرجح جدًا أن الطيور كان فيلًا. قد 
az‏ العلاقات أيضًا لتشمل عدة جمل» وقد تحتوي فقط على إشارة غير مباشرة إلى أحد 
الكيانات المشمولة بالعلاقة (على سبيل المثال: الضمير: هُم)» كما يظهر في المثال التالي. 

المثال ١-5‏ في نوفمبر عام ١477‏ وقعت كابيتول ريكوردز عقدًا مع البيتلز وأعلنت 
عن خطط لإصدار الأغنية المنفردة d Want To Hold Your Hand?‏ (أريد أن أمسك 
بيدك) في شهر ديسمبر عام 21457 إضافة إلى ألبومهم الثاني (With the Beatles?‏ 
(مع البيتلز) في شهر يناير. 

إِذَا خطوات عملية المعالجة المسبقة مثل عملية استخراج الإحالات المشتركة 
تكون مفيدة. كا هو الحال مع كيانات ceu MI‏ يمكن إضافة التعليقات والحواشي 
إلى العلاقات الموجودة في النصء أو استخراجها واستخدامها لتعبئة قاعدة معرفة. 
لتعبئة قواعد المعرفة» هناك خطوة إضافية تتمثل في الدمج بين العلاقات المستخلصة» 
وتشكل هذه الخطوة أيضًا جزءًا من تحديات موقر تحليل النصوص - تعبئة قواعد 
المعرفة KBPO)‏ 140). لدمج العلاقات المستخلصة. من المهم اتخاذ قرار بشأن ما 
إذا كانت العلاقات المستخلصة مترادفة» أو ما إذا كانت إحداها تتبع الأخرى, أو ما 
إذا كانت متناقضة. parve ps ob AE]‏ الالتزام النصي recognizing textual)‏ 
«(RTE - entailment‏ أي التعرف على إمكانية أن يستنتج تعبير ما من oux‏ آخر» 
ومهمة كشف التناقض «CD - contradiction detection)‏ أي استحالة أن تكون 
عبارتان صحيحتين في آن cal s‏ هاتان المهمتان مترابطتان مع أهميتههما كلتيهما. 

مهمة استخراج الأحداث هي مهمة التعرف على colas MI‏ والأحداث عبارة 
عن مجموعة من العلاقات التي Ule‏ ما يكون لحا مشاركون وتاريخ بداية وتاريخ نهاية 
وموقع. من الأمثلة على ذلك افتتاح مطعم. يجري افتتاح المطعم في نقطة معينة من 
الزمن» لكنه قد يغلق ويعاد فتحه مرة أخرى في موقع مختلف. (o‏ باسم مالك جديد. 
هناك صعوبة شديدة في عملية استخراج الأحداث» ويرجع السبب جزئيًا إلى كون 
عملية الاستخراج تشمل التحليل الزمني» وبسبب الغموض الكبير في تعريف الحدث. 


l- http://www.nist.gov/tac/2014/ 
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على الرغم من أن تنفيذ عملية استخراج العلاقات يكون GU.‏ على شكل مراحل 
متتالية» ىا هو مبين في الشكل CY o£‏ إلا أن ذلك قد يؤدي إلى انتقال الأخطاء من 
مرحلة إلى أخرى. ففي حال وقوع خطأ في مرحلة مبكرة من مراحل العملية» لا يمكن 
تصحيحه لاحقا. على سبيل المثال» في حال فشل مهمة التعرف على كيانات الأسماء 
وتصنيفها في التعرف على كيان اسم» لن يكون بوسع أداة استخراج العلاقات تصحيح 
ذلك الخطأً. لهذا السبب» قد تطرح حلول بديلة هذه المسألة» حيث تتعلم هذه الحلول 
المهام المختلفة معًا. يسمح هذا الأمر باستخدام المعلومات الواردة في المراحل المتأخرة 
من عملية المعالجة (مثل مهمة استخراج العلاقات) وفي المراحل المبكرة (مثل مهمة 
التعرف على كيانات الأسماء وتصنيفها) من أجل تصحيح الأخطاء. تجدر الإشارة 
إلى أنه قد جرى طرح أساليب لمعالجة هذه المشكلة» حيث تقوم هذه الأساليب بتنفيذ 
مهو التعرف عل كبانات Pee ME‏ وتصنيفها واستخراج العلاقات معًا في of‏ واحد 
]73, 77[ أو تنفيذ مهمة التعرف على كيانات الأسماء وتصنيفها ومهمة استخراج 
العلاقات ومهمة استخراج الإحالات المشتركة معًا في y Of‏ واحد ]78, 79]. 


٠-٤‏ دور قواعد المعرفة في استخراج العلاقات 

تمثل قواعد المعرفة جزءًا أساسيًا من عملية استخراج العلاقات. تتكون قواعد 
المعرفة من مخططء ويُسمى هذا المخطط قالب استخراج في بعض الأحيان» بالإضافة 
إلى البيانات المرتبطة بالمخطط. يعرف المخطط هيكل المعلومات» على سبيل المثال» قد 
يُعرّف الأشخاص بأنهم سياسيون أو موسيقيون» وآن هم أساء وتواريخ ميلاد» ol s‏ 
السياسيين يكونون مرتبطين بأحد الأحزاب بالإضافة إلى ما سبق» وأن الموسيقيين 
يعزفون على الآلات ضمن فرق موسيقية مع موسيقيين آخرين. إِذَاء يُعرّف المخطط 
الفئات (مثال: شخص) وفتاتها الفرعية (مثال: سياسى) وخصائصها (مثال: داخل 
حزب). الجانب الذي يعني مهمة استخراج العلاقات هو أن الخصائص تحدد العلاقات 
التي يمكن أن Us‏ بين الفئات» في حين تقيّد فئاتها أنواع معطيات العلاقات. إذاء تكون 
البيانات المرتبطة بالمخطط أمثلة على السياسيين والموسيقيين بأسائهم وتواريخ ميلادهم 
eel ls‏ وآلاتهم الموسيقية وفرقهم. تبدأ عملية استخراج العلاقات عادة بهذا المخطط. 
وبعد ذلك يصبح الحدف المنشود إضافة حواش وتعليقات النص بالعلاقات» أو تعبئة 
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قاعدة المعرفة بالمعلومات» أي استخراج البيانات وإضافتها. تعرف المهمة الأخيرة 
باسم تعبئة قاعدة المعرفة (KBP)‏ وقد باتت تحظى بشعبية نظرا لسلسلة مؤتمرات تحليل 
النصوص - تعبئة قواعد المعرفة (TAC KBP)‏ علاوة على وجود أسباب أخرى”'. 
تتكون هذه السلسلة التي تُعنى بجهود التقييم من عدة أجزاء من مراحل منظومة 
استخراج العلاقات» با في ذلك استخراج العلاقات (تعبئة الفتحات) ]75[ والتحقق 
من صحة العلاقات المستخلصة (التحقق من صحة معبئات الفتحات). في عملية تعبئة 
الفتحات» يكون الفاعل أو العلاقة جاهزة» وتتمثل المهمة بعد ذلك في إيجاد المفعول به 
في العلاقة داخل أحد المكانز. 

غالبا ما تستخدم جهود تقييم المهام المشتركة قوالب مُعرّفة e‏ غير أنه ومع بروز 
شبكة الإنترنت ومن بعدها الويب الدلالي» أصبحت قواعد المعرفة الموجودة على 
الإنترنت والمتاحة أمام الجمهور تحظى أيضًا بشعبية عندما يتعلق الأمر بمهمة تعبئة 
قواعد المعرفة [80, 81]. 


o- ٤‏ مخططات العلاقات 
هناك نوعان من المعلومات التي ينبغي شرحها في عملية استخراج العلاقات. AÍ‏ 
نحن بحاجة إلى معلومات تتعلق بالفئات (على سبيل المثال: فنان» مقطوعة) والعلاقات 
التي تجمعها (على سبيل JEI‏ أصدر مقطوعة). ينشر هذا النوع من المعلومات على 
شكل مخطط. GE‏ نحن بحاجة إلى معلومات عن الحالات المفردة لتلك الفئات de)‏ 
سبيل المثال: ديفيد بوي» تغييرات (Changes‏ حيث يمكن نشر تلك المعلومات في 
قاعدة بيانات. لكن نلاحظ أن هذا الأمر اختياري: تحتوي بعض مواقع الإنترنت رمورًا 
دلالية تستخدم عادة J/http;/schema.org‏ لكنها V‏ تنشرها في قاعدة بيانات منفصلة. 
على الرغم من أن المخططات تؤدي غرضًا مشايبًا لغرض القوالب المُعرّفة Cle‏ 
(القسم (E-E‏ عندما يتعلق الأمر بمهمة استخراج العلاقات» إلا أن ها ميزة واضحة 
في طريقة وصف البيانات» حيث تُستخدم مُعرّفات مميزة للكيانات تسمى معرّفات 
الموارد الموحدة (URIS)‏ تخيل مهمة تعبئة فتحات» يوجد فيها الفاعلون في العلاقات» 


l- http://nlp.stanford.edu/software/relationExtractor.html 
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ويكون هدفها استخراج قيم المفعولين بهم في تلك العلاقات. قد يتسم بعض الفاعلين 
بالغموض بسبب كونهم يشيرون إلى عدة كيانات مختلفة موجودة في العام الحقيقي. 
قد يحدث هذا الغموض بين الفئات المختلفة (قد يكون الجاغوار حيوانًا أو إحدى 
ماركات السيارات)» أو داخل الفئات (هناك الكثير من الأشخاص الذين يحملون 
اسم جون سميث). في الحالة الأخيرة على وجه الخصوص,» من المفيد للغاية أن تكون 
معرفات الموارد الموحدة (URIS)‏ موجودة كمدخلات لكل فاعل من الفاعلين. على 
سبيل ا مخال» إذا كانت المهمة تتمثل في استخراج تواريخ OAU‏ تصبح النتيجة المتوقعة 
من عملية استخراج العلاقة نتيجة واحدة فقط لكل كيان فاعل» لكن عملية استخراج 
العلاقة ستعثر على الأرجح على أكثر من نتيجة واحدة لجون سميث. في حال وجود 
عدة معرفات موارد موحدة (URIS)‏ مرتبطة بالاسم جون سميث في قاعدة cii pall‏ 
فقد تستفيد عملية استخراج العلاقة من هذه المعلومات وتقوم بعرض علة نتائج» وقد 
تحاول عرض تاريخ الميلاد الأكثر ترجيحًا لجون سميث المراد البحث عنه» وذلك في 
حال وجود معلومات أخرى عن أشخاص يحملون اسم جون سميث في قاعدة المعرفة» 
£t‏ على تلك المعلومات الإضافية. 

هناك عدد من قواعد البيانات متعددة المجالات» (le‏ أن قاعدة بيانات DBpedia‏ 
تمتلك أكبر عدد من الروابط التي تربطها بقواعد بيانات أخرىء وهو ما يجعلها من 
الناحية الفحلية بمرلة مركز أو غور البيانات المترايظة: تشمل الأمفلة البارؤة الأخرى 
لقواعد البيانات متعددة المجالات Wikidata ; [83] Yago ; [82] Freebase‏ ]84[. 
توجد Ael‏ بيانات محددة المجالاات» وهي خاصة بعدد من المجالات المختلفة» 
فالحكومات تُصدر بياناتها باستخدام معايير الويب الدلالي» s‏ تستفيد العلوم من 
الأساليب التكنولوجية لشرح العمليات المعقدة بواسطة الأنطولوجيات» فيا تقوم 
المكتبات والمتاحف مبيكلة وإصدار بياناتها الخاصة بالكتب والقطع الأثرية والوسائط 
e‏ يثري مقدمو محتوى شبكات التواصل الاجتماعي مواقعهم بالمعلومات الدلالية. 
تعتمد إحدى طرائق استخراج العلاقات وهي طريقة الإشراف عن بعد (انظر القسم 
(t-é‏ على المخططات والبيانات المدرجة في قواعد البيانات المترابطة إلى حد بعيد. 
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من المهم معرفة أن المعلومات الموجودة في قواعد بيانات مختلفة غالبا ما تكون مترابطة 
في مهمة استخراج العلاقات. قد يعثر على معلومات تتعلق بالكيانات نفسها في أكثر 
من قاعدة بيانات واحدة» وللإشارة إلى ذلك» توجد في قواعد البيانات روابط تصل 
بينها. هذا يعني أن منهجيات استخراج العلاقات التي تستخدم المعلومات الموجودة 
أصلا في قواعد البيانات قادرة على جمع المعلومات من قواعد بيانات عدة» كا سيتضح 
في وقت لاحق. علاوة على ذلك» هناك أيضًا روابط على مستوى المخططات (مثال: 
قد تكون الخاصية- تاريخ ONI‏ الموجودة في مخطط معين مرتبطة بالخاصية «مولودا 
في مخطط آخرء وقد تكون الفئة «ألبوم» مرتبطة بالفئة «ألبوم C ue o‏ وهو ما يتيح 
سهولة أكبر في الجمع بين المعلومات الموجودة في قواعد البيانات» وأيضًا بين خططات 
الاستخراج. على سبيل المثال» قد يعرّف أحد المخططات أن الفنانين الموسيقيين لديم 
تواريخ ميلاد» وقد يعرف مخطط آخر eel‏ يقومون بإصدار الألبومات. يمكن إذا الجمع 
بين هذه التعريفات لغرض استخراج كلتا العلاقتين. 


5-4 أساليب استخراج العلاقات 

بعد أن عرضنا طريقة عمل منهجية استخراج العلاقات النموذجية» سوف يشرح 
هذا القسم بالتفصيل مسارات استخراج العلاقات التي تعد بمنزلة أشكالٍ ختلفة 
لمنهجية استخراج العلاقات النموذجية التي ورد شرحها في القسم السابق. يمكن 
تقسيم منهجيات استخراج العلاقات بصفة عامة إلى أساليب قواعدية وأساليب 
خاضعة للإشراف وأساليب الاستخراج التمهيدي شبه الخاضعة للإشراف» وأساليب 
استخراج المعلومات غير الخاضعة للإشراف/ المغتوحة» والأساليب الخاضعة للإشراف 
عن بعد» والمخططات الشاملة. 


١-5-5‏ منهجيات الاستخراج التمهيدي 

كانت منهجيات الاستخراج التمهيدي» التي تعد نوعا من المنهجيات شبه الخاضعة 
للإشراف» من أوائل منهجيات استخراج العلاقات» ومن أبرز الأساليب الرائدة في 
هذا الصدد طريقة استخراج علاقات الأناط التكراري المزدوج (DIPRE)‏ ]85[ 
ونظام lè .]86[ Snowball‏ يلي وصف لطريقة IDIPRE‏ لآن المنهجيات التي جاءت 
لاحقا استخدمت بنيات هيكلية L‏ 
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تتكون منهجية طريقة DIPRE‏ من أربع خطوات بسيطة (انظر إلى الخوارزمية 
4-1). تشمل مُدخلات طريقة DIPRE‏ المدخل R‏ وهو عبارة عن مجموعة مكونة 
من حمس متواليات < s; o‏ > للعلاقة PERSON author-of BOOK‏ (شخص 
مؤلف كتاب)» والُدخل D‏ وهو مجموعة وثائق» وني هذه الحالة هذه المجموعة هي 
شبكة الإنترنت. تتمثل الخطوة الأولى في العثور على متواليات العلاقات الموجودة في 
شبكة الإنترنت. بعد ذلك تجري عملية توليد الأنماط. ثالثاء يتم توليد الأناط المطابقة. 
MD(P)‏ هو مجموع متواليات العلاقات التي تكون (el‏ من الأنماط p-P‏ الموجودة فيها 
مطابقة للأنماط الموجودة في إحدى صفحات الإنترنت. تتكرر هذه العملية حتى يجري 
العثور على علاقات بعدد Ù‏ 

DIPRE [85]: extract(R, D) ١-5 الخوارزمية‎ 


while R « n do 

(O B findOccurrences(R, D 
(P B generatePatterns(O 

(R 8 MDP 

end while 

return R 


تستخدم هذه الخوارزمية البسيطة تقريبًا في جميع منهجيات الاستخراج التمهيدي» 
مع اختلافات طفيفة. على سبيل المثال» قد يكون مُدخل الخوارزمية عبارة عن أمثلة 
وكذلك UT‏ استخراج أو قواعد استخراج. يمكن إجراء عملية المطابقة بين BEYI‏ 
بطرق مختلفة» وذلك باستخدام عملية مطابقة دقيقة أو عملية مطابقة غير دقيقة. الجزء 
الأكثر إثارة للاهتمام في الخوارزمية هو طريقة توليد الأنماط. في منهجية DIPRE‏ تكون 

يقة توليد BEYI‏ بسيطة للغاية» حيث يتم إنشاء نمط عن طريق تجميع الجمل التي 
تتطابق فيها سلسلة الكلمات بين كلمتي شخص وكتاب» والتي تظهر فيها الكلمتان 
شخص وکاب بال بب له يعو ذلك فاس jo‏ الو cis‏ فقي بعال مطايقة 
النمط لحمل كثيرة؛ وكانت درجة الخصوصية فوق حد معين يرمز له بالحرف t‏ (تُضبط 
قيمته يدويًا)» يُرفض النمط. أما إذا كانت درجة الخصوصية منخفضة dm‏ ول يُعثر 
إلا على الكتاب نفسه الذي يحتوي على ذلك النمطء يُرفض النمط أيضًا. هذا الأمر 
هو مؤشر يدل على أحد مساوئ منهجيات الاستخراج التمهيدي يعرف باسم المغزى 
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الدلالي» ويعني ذلك أن هذه المنهجيات تيل نحو الابتعاد كثيرًا عن الُدخل ۸ وإنشاء 
E‏ تر عن عات ع ذا وة بها ب وهی علاقات توجد QU‏ 
بصورة متوازية بجانب متواليات الكيانات ذاتهاء على سبيل «Jit‏ قد تتحول العلاقة 
من مؤلف كتاب إلى محرر كتاب. 


جرى البحث في ناذج الاستخراج التمهيدي في وقت لاحق بهدف تحسين نموذج 
5 . تشمل ناذج الاستخراج التمهيدي البارزة واسعة النطاق ناذج من قبيل 
نموذج KnowItAIl‏ ]87[ ونموذج NELL‏ ]88[ 

KnowltAIl‏ ]87[ هو نظام لاستخراج المعلومات يعتمد على سعة نطاق شبكة 
الإنترنت وتكرار معلوماتها لتوفير معلومات كافية والتحقق من صحتها. ونعني 
بالتكرار هنا أن كثيرًا من المعلومات المتاحة على الإنترنت توجد في أماكن متعددة في 
شبكة الإنترنت» وهو ما يعني أنه يمكن استخدام مصادر المعلومات المتعددة هذه 
من أجل التحقق من صحة الحقائق أو ملء الفجوات الناحمة عن المعلومات المفقودة. 
وبعكس نظام «DIPRE‏ لا يبدأ نظام KnowltAII‏ عمله انطلاقا من علاقة واحدة؛ بل 
يبدأ بعدة علاقات» كا يحتوي على أساليب لتوسيع نطاق مخطط استخراج العلاقات. 
يتكون KnowltAIl‏ من أربع وحدات هي وحدة الاستخراج ووحدة واجهة محرك 
البحث ووحدة التقييم ووحدة الاستخراج التمهيدي. 

تستخدم وحدة الاستخراج blof‏ هيرست ]89[ من أجل استخراج الناذج الفردية 
لفئات الكيانات (هذه النماذج تكون ناذج فردية للفئة كتاب في نظام DIPRE‏ أنماط 
هيرست» التي سيتم شر حها في الفصل السادس» هي قواعد معجمية نحوية لاستخراج 
العلاقات» مثل NPI‏ هو 272152 حيث يشير 7172 إلى اسم فئة من فئات الكيانات مثل 
كتب» e‏ يعني N۴1‏ اسم النموذج الفردي لتلك الفئة. باستخدام واجهة محرك البحث» 
تُصاغ هذه الأنماط بعد ذلك (مع إبقاء (ÉG NPI‏ على شكل استعلامات بحث من 
أجل استرجاع صفحات ويب تتضمن NPI‏ إضافة إلى ذلك» تضم هذه الوحدة قواعد 
لاستخراج العلاقات» على سبيل المثال» NPI‏ يلعب دورًا لصالح NP2‏ حيث تمثل هذه 
القاعدة العلاقة يلعب دورا لصالح (رياضي» فريق رياضي). بعد تطبيق جميع قواعد 
استخراج العلاقات» يجري التحقق من صحة الأن|ط المستخلصة بواسطة وحدة التقييم. 
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تقوم وحدة التقييم بقياس إحصائيات التوارد المشترك للعلاقات التي تمل 
استخراجها بواسطة عبارات مميزة» وتكون هذه العبارات المميزة على شكل bp‏ 
استخراج عالية التكرار. هذا يعني أنه لكل استعلام من استعلامات البحث (مثال: توم 
كروز شارك في بطولة س)» يجري تدوين عدد نتائج البحث وحساب قيمة المعلومات 
المتبادلة الممثلة بالنقاط (Pointwise Mutual Information [PMI])‏ للكيان توم كروز. 

بعد ذلك يستخدم نظام KnowItAIl‏ عملية الاستخراج التمهيدي إلى جانب وحدة 
التقييم من أجل التحقق من صحة الأنماط المستخلصة. يجري استرجاع أعلى 20 نموذج 
فردي من حيث قيمة PMI‏ وذلك لكل فئة من الفثات. بعد ذلك تستخدم تلك النهاذج 
الفردية لتدريب الاحتمالات الشرطية الخاصة بكل نمط من أناط الاستخراج. تؤخذ 
بذور الناذج الفردية السالبة من النماذج الفردية الموجبة للفئات الأخرى. بعد ذلك 
يجري حفظ أفضل خسة bol‏ مستخلصة. فيا يجري التخلص من البقية. ثم يجري 
تدريب Naive Bayes cinah‏ الذي يجمع بين الأدلة المستقاة من تلك الأنماط الخمسة 
المستخلصة من أجل تصنيف ما إذا كان كيان معين (مثال: توم كروز) هو نموذج فردي 
لفئة معينة (مثال: ممثل). بدلا من s ut‏ اختيار أفضل الأنماط المستخلصة مرة واحدة 
يمكن استخدام عملية الاستخراج التمهيدي» أي أنه بمجرد تحديد أفضل خمسة أنماط 
مستخلصة» يمكن استخدامها للعثور على مجموعة جديدة من الناذج الفردية ذات قيمة 
PMI‏ عالية. لضان أن تكون جودة BEYI‏ المستخلصة مرتفعةء تزال النهاذج الفردية 
غير الصحيحة يدويا. 


نظام NELL‏ ]88[ هو نظام استخراج تمهيدي يستخلص المعلومات من شبكة 
الإنترنت من أجل تعبئة قاعدة معرفة» وبمرور الوقت» يتعلم كيفية استخراج المعلومات 
بدقة أعلى. (S‏ هو JH‏ مع نظام ٤۸0۷1۲۸11‏ يعد نظام e NELL‏ على فرضية أن 
المعلومات الضخمة عالية التكرار الموجودة على شبكة الإنترنت هى بمنزلة ميزة هائلة 
يمكن لآليات التعلم الاستفادة منها. تكمن الاختلافات PEN‏ النظامين في أن 
وحدة الاستخراج التمهيدي هي أكثر تعقيدًا في الأخيرء وأن نظام NELL‏ يجمع بين 
BIYI‏ المستخلصة من مصادر مختلفة على شبكة الإنترنت» o‏ فيها النصوص والقوائم 
والجداول. ومثل نظام 0۷1۲411« يتعلم هذا النظام كيفية استخراج أي النماذج 
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الفردية تنتمي لأي الفئات» وأي العلاقات توجد بين النماذج الفردية لتلك الفئات. 


يتم استخراج المعلومات من معلومات غير مهيكلة موجودة على شبكة الإنترنت 
(نص)» ومن بيانات شبه مهيكلة (قوائم وجداول). تدرب أدوات استخراج 
المعلومات بصورة متناسقة باستخدام التعلم المقترن» وذلك باستخدام نظام CPL‏ 
للنص ال حر ونظام CSEAL‏ للقوائم والجداول [90]. ومثل نظام cKnowltAIl‏ يعتمد 
نظام CPL‏ على إحصائيات التوارد JRA‏ بين أشباه الجمل الاسمية وآناط النص 
من أجل تعلم أناط الاستخراج. يستخدم نظام CSEAL‏ علاقات الاستبعاد المتبادل 
لتوفير أمثلة سلبية» وهو ما پستخدم بعد ذلك لفلترة القوائم والجداول التي تتسم 
بالعمومية المفرطة. 

إضافة إلى ذلك يتعلم نظام NELL‏ الانتظام الصرني للناذج الفردية لفئات 
الكيانات» ويستخدم قواعد عبارات هورن الاحتالية بغية استنتاج علاقات جديدة من 
العلاقات التي سبق له تعلمها. ولتعلم الانتظام الصرفي» يستخدم نظام Gah NELL‏ 
صرفيًا مقترنا (CMO)‏ لكل xà‏ من الفئات» يجري تدريب نموذج لوجستي تراجعي 
لتصنيف العبارات الاسمية Flo‏ على خصائصها الصرفية والنحوية (مثال: نوع الكلات 
واستخدام الأحرف الكبيرة والسوابق واللواحق وبطاقات تصنيف أقسام الكلام). 
يتدرب مُتعلم القواعد عبارات هورن من أجل استنتاج علاقات جديدة من العلاقات 
الموجودة أصلاً في قاعدة المعرفة. 

يبدأ نظام التعلم بإحدى قواعد المعرفة VYY)‏ فئة» 00 علاقة» وبضع ناذج فردية 
للفئات وثلاثيات العلاقات)» ومن ثمٌ يبدأ بتعبئة قاعدة المعرفة وزيادة حجمها بصورة 
تدريجية. بعد قيام وحدة الاستخراج باستخراج اعتقاد ماء يبدأ تحسين دقة هذا الاعتقاد 
عبر الرجوع إلى مصادر بيانات خارجية أو أشخاص متخصصين. بعدها تُرفع الاعتقادات 
المدعومة بقوة أكثر من غيرها إلى مرتبة حقائق» وتّدمج في قاعدة المعرفة. في بقية خطوات 
الاستخراج» تستخدم وحدة الاستخراج Glo‏ قاعدة المعرفة التي جرى تحديثها. 

يوفر نظام NELL‏ في العادة إمكانية استخراج الناذج الفردية coUa‏ وكذلك 
العلاقات بدقة عالية És‏ في بداية الأمر ]88[ وعادة ما تكون مكونات الاستخراج 
المختلفة مكملا بعضها بعضًا. ومع ذلك فهي تشير إلى مشكلة تعد شائعة في منهجيات 
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الاستخراج التمهيدي» وهي ضعف دقة الاستخراج مع مرور الوقت. غير أنه من 
الممكن حل هذه المشكلة عبر السماح للعنصر البشري بالتفاعل مع النظام أثناء عملية 
التعلم» وذلك باستخدام أسلوب التعلم النشط [91]. 


۷-٤‏ المنهجيات المعتمدة على القواعد 

هناك أسلوب آخر لإنشاء أنظمة استخراج العلاقات» وهو استخدام منهجية 
قواعدية أو نمطية. تستفيد المنهجيات القواعدية لاستخراج العلاقات من المعرفة 
المجالية (أو المعرفة بالمجال)» ويجري ترميز هذه المعرفة المجالية على شكل قواعد 
لاستخراج العلاقات [94-92]. هناك نوعان مختلفان من المنهجيات القواعدية» وهما 
المنهجيات المنفصلة والمنهجيات التي تتعلم القواعد لغرض الاستدلال بهدف تكملة 
منهجيات استخراج العلاقات الأخرى. يعتمد النوع الأول عادة على قواعد نحوية 
لترميز القواعد المعقدة وعلاقات التبعية الموجودة بينهما. من الأمثلة على الأشكال 
القواعدية عضو فرقة موسيقية تليه بعد 30 حرفا أو أقل آلة موسيقية. للتعرف على 
عضو الفرقة الموسيقية والآلة كليهماء تستخدم معاجم كيانات أسماء مسبقة التجميع 
وكذلك التعبيرات العادية. من مساوئ مثل هذه المنهجيات القواعدية كونها غير قادرة 
على تعميم قدرتها على التعرف لتشمل الأنماط النصية غير المرئية» إلى جانب ضعف 
قدرتها على الاستدعاء. 

تتضمن المنهجيات القواعدية المستخدمة لأغراض الاستدلال نظام 
Knowledge Vault‏ ]95[ الذي يستخدم خوارزمية ترتيب تعتمد على المسارات. IA‏ 
العملية بزوجين من الكيانات يعرف أن بينهما علاقة وفقا لقاعدة معرفة (بذرة)» وبعد 
ذلك يسير النظام بطريقة عشوائية فوق خط المعرفة لإيجاد مسارات أخرى تربط بين 
هذه الكيانات. لذا يمكن أن يتعلم النظام هل يوجد Jab‏ مشتركٌ بين شخصين أم Y‏ 
أو هل هناك احتمال كبير في أن يتزوج olia‏ الشخصان أم لاء أو أن الأشخاص غالبا ما 
يدرسون في الجامعة نفسها التي يدرس فيها أشقاؤهم. من مساوئ استخدام القواعد 
التي جرى تعلمها لأغراض الاستدلال أن القواعد التي جرى تعلمها بواسطة قاعدة 
معرفة صغيرة قد لا تكون عامة (o‏ يكفى لتنطبق على علاقات جديدة» على سبيل «JUI‏ 
كسيب امخام كل هله ael all‏ الك عن طريق oA o pam edel‏ ن 
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الأداء [75] في بعض التجارب التى قدمت في موقر تحليل النصوص - تعبئة قواعد 
المعرفة (TAC KBP)‏ في عام TARRE:‏ وللتخفيف من هذه المشكلة» ينبغى الحرص 
على استخدام القواعد التي تعتمد على إثباتات كافية. 


A- £‏ المنهجيات الخاضعة للإشراف 
تعد المنهجيات الخاضعة للإشراف في الوقت الراهن أفضل منهجيات استخراج 
العلاقات من حيث الأداءء شريطة وجود ما يكفى من البيانات التدريبية المصنفة. تسبر 
هذه المنهجيات c‏ للمنظومة العامة لاستخراج العلاقات (الشكل 4-1( حيث 
تقوم باستخدام مكنز أضيفت له الحواشي والتعليقات لإجراء عملية المعالجة المسبقة 
للجمل بواسطة خطوات المعالجة المسبقة المعتادة في عمليات معالجة اللغات الطبيعية 
(تصنيف أقسام الكلام» التحليل الإعرابي» تحديد كيانات الأسماء ...الخ)» وبعد ذلك 
تقوم باستخراج الخصائص وتدريب أحد الناذج والتنبؤ بالعلاقات في مجموعة من 
بيانات الاختبار. 
satia, ale‏ مع oe VIA MI‏ و JE‏ فل عدب انم وتك نالصا 
بمنزلة إشارات تتيح تعلم ما إذا كانت هناك علاقة ما بين كيانين من كيانات الأسماء أو 
لا. أثناء عملية التدريب» يلاحظ النموذج مدى تكرار ورود خاصية معينة باستخدام 
وهذا الوزن يمكن أن يكون إيجاييًا أو سلييًا. على سبيل المثال» إذا كانت العبارة الفاصلة 
بين كيانين تجمعههم| العلاقة مؤلف [كتاب] هي عبارة هو مؤلف [كتاب]» فسوف تُعطى 
وزنًا Gul‏ مرتفعاء ea‏ تحصل العبارة هو مدير على وزن سلبي. 
تشمل الخصائص المعتادة في عملية استخراج العلاقات (المستخدمة على سبيل JEU‏ 
في 731 (C81,‏ الآتي: 
N-gram -‏ من الكلمات الموجودة على يسار ويمين الكيانات؛ 
N-gram -‏ من أقسام الكلام التي تنتمي إليها الكلمات الموجودة على يسار 
ويمين الكيانات؛ 
- علامة تشير إلى أول كيان يرد في الجملة؛ 
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- سلسلة بطاقات تصنيف أقسام الكلام وكيس الكلمات (BOW)‏ بين الكيانين؛ 
- مسار التبعية بين الفاعل والمفعول به؛ 
بطاقات تصنيف أقسام الكلام التي تنتمي إليها الكلمات الموجودة في مسار التبعية 
بين الكيانين؛ والجذوع الموجودة في مسار التبعية. 
تشمل الخصائص الأخرى الممكنة أساليب كيرنيل [97,96] أو تضمينات العلاقات 
التي ظهرت dor ga‏ والتي تتعلم تمثيلات ذات أبعاد أعلى للبيانات المصئفة. يمكن 
اعتبار هذه التمثيلات كخصائص كامنة ولذا تزول الحاجة لعملية هندسة الخصائص 
التي قد تكون مرهقة. من حيث النماذج» يجري استخدام تشكيلة واسعة مثل SVM‏ أو 
نهاذج الإنتروبيا القصوى أو شبكات ماركوف المنطقية أو الشبكات العصبية (العميقة). 
من الأمثلة على أدوات استخراج العلاقات النموذجية أداة Stanford‏ لاستخراج 
CCCo SUI‏ المبنية كوحدة إضافية على منصة .Stanford CoreNLP‏ تكتشف هذه 
الأداة بعض العلاقات من قبيل (يعيش فيء يوجد id‏ يوجد مقر المؤسسة في» ويعمل 
في). هذه الأداة مدربة بواسطة بيانات مكنز TREC‏ لكن من السهل إعادة تدريبها 
باستخدام مكنز آخر وتخصيصها. 


5 -4 المنهجيات غير الخاضعة للإشراف 

باتت المنهجيات غير الخاضعة للإشراف لاستخراج العلاقات تحظى بالشعبية 
بعد فترة وجيزة من ظهور الأنظمة الخاضعة للإشراف» وكان من بين الأمثلة على 
أنظمة استخراج المعلومات المفتوحة أنظمة من قبيل ReVerb ; [99] TextRunner‏ 
OLLIE, [100]‏ [101]. يستخدم منهج أنظمة استخراج المعلومات المفتوحة 
أساليب بسيطة وقابلة للتوسيع لاستخراج المعلومات غير المقيّدة مسبقا. هذا المنهج 
هو عكس المنهجيات شبه الخاضعة للإشراف التي سبق شرحها في الأقسام السابقة» 
والتي تستخدم مخططات استخراج معرّفة مسبقا. لذا يمكن اعتبار أنظمة استخراج 
المعلومات المفتوحة كمجموعة فرعية من المنهجيات غير الخاضعة للإشراف. هذا يعنى 
أنه يتعين على أنظمة استخراج المعلومات المفتوحة استنتاج الفئات التي تنتمي إليها 


1- http://ai.cs.washington.edu/projects/open-information-extraction 
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الكيانات» وكذلك العلاقات القائمة بينها. فيا يلي شرح لأول منهجية من منهجيات 
استخراج المعلومات المفتوحة» وذلك من أجل استعراض مسارات الأبحاث والإشارة 
إلى أوجه القصور والتحسينات الموجودة في الأبحاث اللاحقة. 

كان نظام TextRunner‏ ]99[ أول نظام مفتوح لاستخراج المعلومات يجري تطبيقه 
وتقييمه بالكامل. يتعلم هذا النظام نموذج حقل شرطي عشوائي (CRF)‏ للعلاقات 
وفئات الكيانات والكيانات» ويتعلم هذا النموذج من أحد المكانز بواسطة نموذج 
استخراج لا يعتمد على العلاقات. أولاًء يقوم النظام بمعاينة المكنز بأكمله مرة واحدة» 
ويقوم بإضافة التعليقات والحواشي إلى الجمل ببطاقات تصنيف أقسام الكلام وأشباه 
الجمل الاسمية. لتحديد ما إذا كان ينبغي استخراج العلاقة el‏ لاء يستخدم النظام أداة 
تصنيف خاضعة للإشراف. هذه الأداة مدربة عن طريق إجراء تحليل إعرابي لمجموعة 
فرعية صغيرة من المكنز» ومن ثم تصنيف الجمل وفق منهج تجريبي إلى أمثلة إيجابية 
(موثوقة) وسلبية (غير موثوقة)» وذلك باستخدام مجموعة محدودة من القواعد المشفرة 
يدويًا. بعد ذلك تقوم أداة التصنيف باتخاذ قرار بشأن الجمل غير المرئية SU‏ على بطاقات 
تصنيف أقسام الكلام بدلاً من شجرة الإعراب» لأن عملية التحليل الإعرابي للمكنز 
بأكمله باهظة الثمن. للتمييز بين المترادفات» يقوم نظام TextRunner‏ بإجراء عملية 
تجميع غير خاضع للإشراف للعلاقات والكيانات بناءَ على أوجه الشبه من حيث 
التسلسل والتوزيع ]99[ 

يعالج نظام ReVerb‏ [100] اثنين من أوجه القصور الموجودة في أنظمة استخراج 
المعلومات المفتوحة القديمة» وهما عدم تناسق المعلومات المستخلصة وعدم احتوائها 
على معلومات مفيدة. تحدث مشكلة عدم تناسق المعلومات المستخلصة عندما تفتقر 
شبه الجملة الاسمية المستخلصة إلى تفسير ذي معنى. يعود السبب إلى حقيقة مفادها 
أن القرارات تتخذ بشكل تسلسلي في نظام  TextRunner‏ من الأمثلة على ذلك العلاقة 
(يحتويء يُخفل) التي تُستخلص من الجملة (الدليل يحتوي على روابط لا تعمل Jio‏ 
المواقع الإلكترونية). لحل هذه المشكلة» تفرض قيود نحوية على العلاقات التي ينبغي 
استخراجها. أول هذه القيود أنه ينبغي أن تكون شبه جملة العلاقة إما بصيغة الفعل 
(مثال: اخترع) أو بصيغة فعل متبوع بحرف جر (مثال: يوجد في) أو بصيغة فعل متبوع 
بأسماء أو صفات أو ضمائر وحرف جر (مثال: يصل وزنه الذري إلى). Cl‏ إذا كانت 
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هناك عدة تطابقات ممكنة» يجري اختيار التطابق الأطول. في حال العثور على تسلسلات 
متجاورة (مثال: يرغب. في تمديد)» تدمج هذه التسلسلات (مثال: يرغب في تمديد). 
doe‏ يجب أن تظهر العلاقة بين المعطيين في الجملة. 

تفل المعلومات المستخلصة غير المفيدة معلومات مهمة» على سبيل المثال» يستخلص 
نظام TextRunner‏ فوست» عقد» صفقة Ya‏ من استخراج فوست» عقد صفقة (qo‏ 
الشيطان» من الجملة فوست عقد صفقة مع الشيطان. يمكن استخراج بعض المعلومات 
المفقودة بواسطة القيود النحوية. غير أن ذلك قد يسبب استخراج علاقات مفرطة 
في درجة التحديد» على سبيل المثال: لا يقدم سوى أهداف متواضعة لخفض غازات 
الاحتباس الحراري في. لحل هذه المشكلة» يستحدث قيد معجمى يتمثل في ضرورة أن 
sli‏ الاقام 20 معطن من المنطيات ed‏ ةغل الأقل ق Lad‏ لكى تكون مفيذة. 

وعلى الرغم من كون مجال استخراج المعلومات من مجالات البحث الواعدة» وعلى 
الرغم من إمكانية رسم خريطة لمجموعات العلاقات تتوافق مع خططات استخراج 
العلاقات لاحقاء إلا أن ذلك يضع قيودًا غير ضرورية على مهمة تعبئة قواعد المعرفة. 
يمكن توقع أن يكون أداء منهجيات استخراج العلاقات المطورة لمخطط معين أعلى من 
أداء منهجية غير حصورة بمخطط معين. والسبب في ذلك يعود إلى المشكلات المذكورة 
أعلاه والمتمثلة في العلاقات غير المتناسقة وغير المفيدة. تكون حدة هذه المشكلات أقل 
في أساليب الاستخراج التمهيدي. 

على الجانب Cz MI‏ تعد أساليب استخراج المعلومات المفتوحة التي لا تستخدم 
مخططات معرّفة مسبقا قابلة للتطبيق بشكل أوسع في سيناريوهات مختلفة. من الأمور 
التي يمكن اعتبارها كمزايا إمكانية تحويل المخرجات» حسب السيناريو» إلى خططات 
لقا ى خطوة gi‏ رسلا ما بعد ga all‏ الأساليب والتائج الجر ية 
لأنظمة استخراج المعلومات المفتوحة بصورة منفصلة عن مشروع KnowItAll‏ من 
جامعة واشنطن (Relnoun «Srlie «Ollie cReVerb «TextRunner)‏ © وتم نشرها 
من قبل باحثي Stanford NLP‏ 5 وهي i£‏ بمنصة Stanford CoreNLP‏ ]102[ . 


1- http://nlp.stanford.edu/software/openie.html 
2- http://nlp.stanford.edu/software/mimlre.shtml 
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٠١-5‏ منهجيات الإشراف عن بعد 

الإشراف عن بعد هو أسلوب لإضافة التعليقات والحواشي للبيانات التدريبية 
بصورة آلية باستخدام العلاقات الموجودة في قواعد المعرفة. في عام 1999م» اقترح 
كريفين وكولين ]103[ المنهجية الأولى كأسلوب لتعبئة قواعد المعرفة في Jle‏ الطب 
الحيوي» على الرغم من إطلاقه| تسمية «ضعيف التصنيف» على منهجيته|. des‏ 
الرغم من كون النتائج واعدة» إلا أن هذه المنهجية لم تحظ بالشعبية إلا بعد مرور ٠١‏ 
سنوات» وذلك عندما استحدث مصطلح «الإشراف عن بعد). قد يعود سبب بروز 
هذه المنهجيات على السطح مرة أخرى JE ee‏ زيادة توفر قواعد معرفة على شبكة 
الإنترنت. يعرّف (مينتز وآخرون) [81] فرضية الإشراف عن بعد كالتالي: 
في حال مشاركة كيانين في علاقة ماء يمكن أن تعبر أي جملة تحتوي على هذين الكيانين 
عن تلك العلاقة. 


يقدم الشكل ۲-٤‏ صورة لكيفية عمل مثل هذه المنهجية. يتمثل JA‏ هذه المنهجية 
في قاعدة معرفة تحتوي على مجموعة من فئات الكيانات والعلاقات» وناذج لتلك 
الفئات وأمثلة على تلك العلاقات» وكذلك مكانز تدريب واختبار. تجري obo‏ مكنز 
التدريب مسبقا بغية التعرف على كيانات الأسماء» وبعدها يجري البحث فيه عن حمل 
تحتوي على الفاعل والمفعول به كليه) في العلاقات المعروفة (مثال: في رجينيا وريتشموند 
في العلاقة تتضمن (موقع» موقع)). تعد الجمل التي تحتوي على الفاعل والمفعول به 
eis‏ في العلاقات المعروفة بيانات تدريب إيجابية في العلاقة» بين) تعد الجمل الأخرى 
أمثلة تدريب سلبية (NIL)‏ بعدها يجري تدريب أداة تصنيف خاضعة للإشراف (مثال: 
(MaxEnt SVM Naive Bayes‏ وتطبيقها على مكنز اختبار. بصورة عامة» تكون 
عملية التعلم مطابقة لعملية التعلم المستخدمة في أنظمة التعلم الخاضع للإشراف» 
وليس هناك اختلاف سوى في عملية تصنيف بيانات التدريب (تكون العملية آلية 
بدلاً من أن تكون يدوية). لذاء تحتوي هذه المنهجية على جميع مزايا التعليم الخاضع 
للإشراف (دقة عالية في المخرجات المستخلصة بالنسبة إلى daas‏ الاستخراج)» ومزايا 
إضافية» لأنه ليس من المطلوب بذل مجهود يدوي في تصنيف بيانات التدريب. يكون 
أداء عملية الاستخراج أدنى قليلاً من أداء ا منهجيات الخاضعة للإشراف» وذلك بسبب 
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تصنيف أمثلة التدريب بصورة خاطتة. من الأسباب الرئيسة المؤدية إلى تصنيف أمثلة 
التدريب بصورة خاطئة غموض الأشكال السطحية (مثال: فرجينيا يمكن أن تكون 
اسم شخص أو موقع) [104 ,105]. ظلت مسألة تحسين عملية التصنيف الآلي لأمثلة 
التدريب في حور الاهتمام في بحوث منهجيات الإشراف عن بعد منذ ذلك الوقت» كا 
هو مذكور في استبانة أجراها [106]. 
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الشكل £ [A]: Y-‏ نظرة عامة على أسلوب الإشراف عن بعد. 


١-١-5‏ المخططات الشاملة 

يجمع مفهوم المخططات الشاملة [107] بين مزايا عمليتي استخراج المعلومات 
المفتوح والإشراف عن بعد. تفترض طرق نمذجة البيانات المفقودة لتقليل النتائج 
الخاطئة أنه لا يتم تضمين جميع العلاقات (مثال: مايكروسوفت أسسها بيل جيتس)» 
وهو ما يؤدي إلى تصنيفها كبيانات تدريب سلبية. على الجانب الآخرء تتناول المخططات 
الشاملة مفهوم أن ليس جميع العلاقات (مثال: أسسها) موجودة في قاعدة المعرفة. بعد 


-\\ es 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


ذلك تسعى إلى الجمع بين العلاقات المعرّفة بواسطة مخطط قاعدة المعرفة والعلاقات 
المكتشفة في النص باستخدام أساليب استخراج المعلومات المفتوح. نشير هنا أن أساليب 
استخراج المعلومات المفتوح لا يعتمد على خطط استخراج» بل يقوم بتجميع الأنماط 
السطحية (مثال: أسسهاء قام بتأسيسها) بدلا من ذلك على شكل علاقات. ولإجراء 
ذلك» يتم تكوين مصفوفة نمثل صفوفها أزواج الكيانات وتمثل أعمدتها كلتا العلاقتين 
المعرفتين في قاعدة المعرفة وأنماط استخراج المعلومات المفتوح. ولتوقع قيم العلاقات 
غير المرئية» يتم استخدام طريقة تعميل (آي التحليل إلى عوامل) المصفوفة. 


5-١-5‏ المنهحيات الطجينة 

doe‏ تجدر الإشارة إلى أنه بالإضافة إلى المخططات الشاملة» هناك عدد كبير من 
المنهجيات الهجينة الموجهة نحو الجمع بين مزايا عدة أنواع من المنهجيات. هناك أساليب 
تجمع بين المنهجيات الهجينة القائمة على الأناط والمنهجيات الخاضعة للإشراف» 
والمنهجيات التي تجمع بين منهجيات الإشراف عن بعد والمنهجيات القواعدية ]108[« 
والمنهجيات التي تجمع بين الإشراف عن بعد والإشراف eol s [109] CAUD‏ 
الأساليب التي تجمع بين المخططات الشاملة والمنهجيات القواعدية [110]. 

من أدو ات استخراج العلاقات الجديدة التي تحظى بالشعبية أداة SampleJS‏ 
L109]‏ تستخدم هذه الأداة الإشراف عن بعد للحصول على أمثلة تدريبية مشوشة» 
وتستخدم التعليم النشط لتحسين جودة البيانات التدريبية بصورة تكرارية. تعالج هذه 
المنهجية بعض المشكلات التي ورد شرحها في المقدمة» على سبيل المثال العلاقات التي 
يمكن أن تتداخل. يأتي هذا التوزيع مرفقًا بنموذج مسبق التدريب يستخدم jo‏ من 
مخطط العلاقات Freebase‏ ومخطط 2013 TAC KBP‏ وهو ما ينتج عنه EY‏ علاقة» 
كا تستخدم موسوعة ويكيبيديا كمكنز تدريبي. يمكن إعادة تدريب هذه المنهجية 
للمخططات و/ أو المكانز الأخرى. 


l- http://www.nzdl.org/vikification/docs.html 
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١1-5‏ الأداء 
هناك عدة مكانز تدريبية لعملية استخراج العلاقات الخاضعة للإشراف» على الرغم 
من أن عددها لا يقترب من عدد المكانز المتوفرة لعملية التعرف على كيانات الأسماء. 
تشمل المكانز .TAC KBP, TREC, Ontonotes ; ACE‏ تشمل مكانز ACE‏ و 
69 أيضًا تعليقات وحواشى لمهام معالجة اللغات الطبيعية المترابطة» مثل مهمة 
التعرف على كيانات الأساء واستخراج الإحالات المشتركة» وهو ما يجعلها مثالية 

لدراسة ape VI‏ المتبادل بين تلك المهام. 

يعتمد أداء منهجيات استخراج العلاقات اعتمادًا كبيرًا على نوع العلاقة. عندما يتعلق 
الأمر بالمنهجيات المبنية على التعلم» يعتمد الأداء على عدد الأمثلة التدريبية الموجود لكل 
علاقة» وبالنسبة للمنهجيات التي تستخدم المعرفة الأساسية مثل منهجيات الإشراف 
عن بعد والمنهجيات القواعدية» يعتمد الأداء على جودة البيانات الأساسية وكذلك 
على نوع نص المكنز (مثال: النصوص الإخبارية» نصوص ويكيبيدياء بيانات الطب 
الحيوي). تتيح مبادرات التقييم من قبيل مؤتمرات تحليل النصوص - تعبئة قواعد المعرفة 
TAC KBP‏ لتقييم أساليب تعبئة إجراء مقارنة موضوعية بين المنهجيات المختلفة عبر 
استخدام بعض من هذه العوامل كمتغيرات تحكم. في مؤتمر TACKBP‏ لعام 275١١5‏ 
استخدمت المقترحات المقدمة جميع أنواع منهجيات استخراج العلاقات المختلفة التي 
نوقشت في هذا الفصل» ونعني بذلك منهجية الإشراف المباشر ومنهجية الإشراف 
عن بعد والمنهجيات المبنية على الأناط والمنهجيات المبنية على القواعد» ومنهجيات 
الاستخراج التمهيدي ومنهجيات استخراج المعلومات المفتوح ومنهجيات المخططات 
الشاملة. تشير الاتجاهات الناشئة إلى أن ١5‏ من أصل YA‏ نظامًا قدمت إلى المؤتمر 
استخدمت منهجيات الإشراف عن بعد» وأن معظم الأنظمة جمعت بين الإشراف عن 
بُعد والقواعدء بالإضافة إلى أن أهم ثلاثة أنظمة كانت مبنية على منهجية الإشراف عن 
بعد. يعد التعلم النشط أسلويًا ناجحًا للجمع بين منهجيتي الإشراف المباشر والإشراف 
عن e c‏ أن إحدى هاتين المنهجيتين تشكل أساس أداة SampleJS‏ ]109[ قدمت 
المنهجية الوحيدة المستندة إلى المخططات الشاملة Fol‏ جيدَاء على الرغم من أن أداءها 
لم يكن بدرجة أداء منهجية الإشراف عن بعد المدمجة نفسهاء إما مع منهجية الإشراف 


efe 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


المباشر أو المنهجية القواعدية. كان أداء المجموعات التى استخدمت أناطًا مصنوعة 
OUS e pl Oo T a ro UL Ls‏ انعد regia‏ ن يناف ات خا 
التي جمعت بين استخراج المعلومات المفتوح والأناط المصنوعة يدويًا. يشير هذا الأمر 
إلى أنه عندما يتعلق الأمر بتعبئة قواعد المعرفة بالعلاقات» فإن المنهجيات المستندة إلى 
التعلم الآلي تتفوق بشكل كبير على المنهجيات المستندة إلى الأنماط. بصفة cisle‏ وصل 
الأداء البشري في مؤتمر TAC KBP‏ لعام 64 إلى درجة ۴1 نسبتها VY‏ في 
حين حققت المنهجية الأفضل من حيث الأداء نسبة AY VN‏ 

من مساوئ مؤتمر تحليل النصوص - تعبئة قواعد المعرفة (TAC KBP)‏ أن عدد 
أمثلة التدريب لكل علاقة يختلف اختلافًا واسعّاء وهو ما جعل من الصعب إجراء 
مقارنة بين أداء العلاقات. لإعطاء لمحة عن صعوبة عملية استخراج العلاقات» يضم 
الجدول ١-5‏ قائمة درجات Ro P‏ و۴1 الخاصة العلاقات الأكثر شيوعًا في نظام التقييم 
SampleJS‏ ]1109 وهي مكونة جزثيا من علاقات موقر TAC KBP‏ لعام 2014م 
وجزئيا من علاقات قاعدة المعرفة .Freebase‏ 


الجدول :١- ٤‏ مقارنة بين أداء العلاقات المختلفة 


الأسلوب Fl |R ÍP‏ 
موظف في 32| 46 38 
eal‏ الأعضاء 26 | 60 36 
(Org:) alt names‏ 48 39 43 
اللقب 26 | 35 30 
الزوج(ة) 54 | 85 66 
الأصل 43 | 70 | 53 
سبب الوفاة 93 | 39 55 
الأطفال 2 | 18 27 
تاريخ الوفاة 64 | 39 48 
السن 97 | 90 93 
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كما يظهر من الجدول» يختلف الأداء ÉSE‏ واسعًا حسب نوع العلاقة» على سبيل 
المثال» يكون أداء 71 في علاقة السن d ZAY‏ حين لا يكون هذا الأداء في علاقة الأطفال 
سوى ۲۷./. تجدر الإشارة إلى أن تحديات التقييم هذه لا تعطي بالضرورة فكرة واقعية 
عن أداء عمليات استخراج العلاقات في التطبيق العملي. يزيد أداء عملية استخراج 
العلاقات بصورة درامية مع وجود بيانات تدريب إضافية» وأيضًا عند التخلص من 
شبكة الإنترنت لاستخراج العلاقات أنشأته شر كة جوجل ]95[ في تحقيق درجة AUC‏ 
(منطقة تحت منحنى استدعاء-الدقة (area under the precision-recall curve‏ 
قيمتها 4۲۷ , ٠‏ وذلك عبر التخلص من جميع العلاقات المستخلصة بمستوى ثقة يقل 
عن .١,9‏ 

باختصار» تتمثل منهجيات استخراج العلاقات الأكثر نجاحًا في المنهجيات ال هجينة 
التي تجمع بين المنهجيات المستندة إلى التعلم التي تستخلص المعلومات باستخدام عدد 
من الأساليب المختلفة. تستخدم هذه المنهجيات كميات كبيرة من بيانات التدريب 
وتستخلص العلاقات من عدة مصادر مختلفة. 


٠-٤‏ خلاصة 
يلخص الجدول 5-5 النقاط الرئيسة المتعلقة بأنواع المنهجيات المختلفة. توجد 
في جميع أساليب استخراج العلاقات مزايا وعيوب» فهي تختلف في كمية المدخلات 
الأولية المطلوبة» وما إذا كانت هناك حاجة للتدخل البشري أو لا أثناء عملية 
التعلم» ومدى ملاءمتها لعملية تعبئة ael‏ المعرفة. قد لا تحتاج أساليب الاستخراج 
التمهيدي سوى بضعة أمثلة من الأمثلة الأولية» لكن كا نوقش في القسم ASIE‏ 
قد تتطلب مشكلة المغزى الدلالي مزيدًا من التدخل البشري أثناء عملية التعلم. تعد 
هذه الأساليب ملائمة لتعبئة قواعد المعرفة» نظرًا OY‏ عملية الاستخراج تجري وفقا 
لمخطط استخراج. تتطلب المنهجيات القواعدية عددًا كبيرًا من القواعد المطورة يدوياء 
بالإضافة إلى معاجم جغرافية لكيانات الأسماء» وعادة ما تكون قدرة الاستدعاء لدا 
متدنية. في سيناريوهات التطبيق العملي» لا تزال المنهجيات القواعدية تستخدم في 
أحيانٍ كثيرة» على الرغم من أنها لا تعد حديثة من ناحية الأداء. يعود السبب في ذلك إلى 
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سهولة تطويرها وتوسيعهاء ولا تتطلب بذلك جهدًا كبيرًا مسبقاء مثل تصنيف مكنز 
تدريب. هناك صيغة لمنهجية استخراج العلاقات القواعدية لا تتطلب Ji‏ جهد. وهي 
الأنظمة المتعلمة للقواعد. والتي بدورها تتعلم قواعد استنتاج عالية الدقة باستخدام 
بذور قواعد المعرفة» والتي يمكن استخدامها إلى جانب أساليب استخراج العلاقات 
الأخرى. 

تتطلب أساليب استخراج العلاقات الخاضعة للإشراف أمثلة تدريبية مصنفة Ú y‏ 
لخطط علاقات. تعد هذه الأساليب أفضل أساليب استخراج العلاقات في تعبئة قواعد 
المعرفة» إلا آنا قد تتطلب أيضًا بذلك er‏ كبيرًا مسبقا في حال عدم توفر بيانات 
تدريبية مناسبة. لا تتطلب منهجيات استخراج المعلومات المفتوحة أي مُدخلات في 
البداية» لكن هذا يعنى أن مخرجات مثل هذه المنهجيات لا تكون سوى تجميعات 
لاف رمن هناك طريةة م ارا آل ولط d] Aes pecunie‏ 
d‏ هذه المنهجيات حل eleal‏ في السيناريوهات التي لا تتوفر فيها خططات علاقات» 
أو التي يكون هدفها توسيع نطاق أحد مخططات العلاقات» لكنها أقل ملاءمة لعمليات 
تعبئة قواعد المعرفة. 

فطلي ميجنات الآشر اق عع comedia $e Las dei‏ تمر 30 Site‏ 
لكل علاقة على الأقل» وتستخدم هذه المعلومات لتصنيف بيانات التدريب» ومن E‏ 
إجراء عملية التعلم الخاضع للإشراف. بسبب وجود مثل هذه المعلومات بوفرة على 
شبكة الإنترنت ضمن قواعد بيانات موجودة حاليّاء تصبح عملية جمع هذه المعلومات 
OTT‏ أمرّا cese‏ ولذا فإنها لا تتطلب العامل البشري. ونظرًا لأا أيضًا تستخدم بعد 
ذلك المخططات المرتبطة بأمثلة العلاقات الخاصة بالتدريب» فإنها تعد مناسبة للغاية 
لعمليات تعبئة قواعد المعرفة. وحتى لو توفرت معلومات تدريب مصنفة» | هو 
الحال في حملات التقييم من قبيل مؤتمرات TAC KBP‏ فإن الأداء يتحسن عند إضافة 
بيانات إضافية مصنفة عن بعد. تعد المخططات الشاملة منهجية تقوم بتوحيد العلاقات 
الُعرّفة بواسطة المخططات. يمكن استخراج هذه العلاقات باستخدام أساليب مختلفة 
لاستخراج العلاقات» مثل الإشراف عن بعد واستخراج المعلومات المفتوح» وهذا من 
نقاط القوة الرئيسة الموجودة فيها. 
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dS]‏ تحديد الأسلوب الأمثل لاستخراج العلاقات يعتمد في حقيقة الأمر على المهمة 
المطروحة. إذا كانت المهمة استكشافية» يكون أسلوب استخراج المعلومات المفتوح 
ملاتا بقوة» وهناك العديد من الأدوات التي تتيح معرفة أدائها. بالنسبة لعمليات تعبئة 
قواعد المعرفة» تتكون الوسائل الحديثة المستخدمة Dl‏ من منهجيات هجينة تجمع 
بين أساليب استخراج المعلومات الخاضعة للإشراف» وأساليب الإشراف عن بعد أو 
القواعد المستنتجة باستخدام بذور قواعد المعرفة. 


الجدول c Y- ٤‏ مقارنة الحد الأدنى بين طرق استخلاص المعلومات الخاضعة للإشراف 


io ll |‏ المدخلات | المخرجات الوصف المزايا العيوب 
الاستخراج | نص غير مصنف | قواعد | تُستخلص الأمثلة سهولة إضافة في الغالب تدني 
التمهيدي | و/أو مخططات | استخراج | باستخدام مجموعة قواعد جديدة» | إمكانية الاستدعاء 
علاقات و/ وعلاقات | صغيرة من قواعد | وإمكانية تزويد تلك | و/ أو إجراء تنقيح 
أو قواعد و/ أو استخراج العلاقات | القواعد من قبل | يدوي لتحقيق دقة 
أمثلة Régis,‏ المستخدم عالية 
بأبرزهاء مع تعلم 
المزيد من القواعد 
والأمثلة بشكل 
متكرر 
الاستناد إلى | نص غير مصنف | علاقات | تُستخلص العلاقات ١‏ سهولةإضافة في الغالب تدني 
القواعد ومخططات باستخدام قواعد قواعد جديدة» إمكانية الاستدعاء 
علاقات وقواعد الاستخراج ومعاجم وإمكانية تزويد تلك وضرورة بذل 
ومعاجم كيانات الأسماء القواعد من قبل جهد كبير في 
جغرافية المستخدم التطوير 
الإشراف | نص غير مصنف | علاقات تدريب نموذج تعد هذه المنهجية | ضرورة بذل Jer‏ 
المباشر ومخططات باستخدام مخطط JAI ÓL‏ مسبق في تصنيف 
علاقات علاقات وبيانات دقة وقدرة على البيانات ووجود 
تدريب مصنفة الاستدعاء عندما خطر الإفراد 
يتعلق الأمر بعمليات | في تجهيز طقم 
استخراج العلاقات التدريب 
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| المنهحية المدخللات 
استخراج | نص غير مصنف | مجموعات 
المعلومات علاقات 
المفتوح 
الإشراف | نص غير مصنف 
عن بعد ومخططات 
علاقات وأمثلة 
المخططات عدة قواعد 
الشاملة معرفة معبأة 
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نموذج 
استخراج 
وعلاقات 


= 


الوصف المزايا 
اكتشاف مجموعات ١‏ لاداعي للمعرفة | صعوبة فهم معنى 
العلاقات في النص Nu‏ المجموعات 
باستخدام أسلوب وصعوبة تحويلها 
التجميع» مع لمخططات 
الاحتفاظ بأبرزها علاقات 
تحشية بيانات استخراج العلاقات | ضرورة وجود 
التدريب Úi‏ عالية الاستدعاء أمثلة أولية 
وتدريب نموذج والدقة 
بهدف استخراج 
المزيد من العلاقات» 
وذلك باستخدام 
مخطط علاقات 
وأمثلة علاقات 
jsi‏ عدد من قواعد | العلاقات عندما تكون 
موحدة المعرفة معرّفة المعرّفة بواسطة قواعد المعرفة 
بواسطة محططات | مخططات مختلفة بعد صغيرة» الأسرع 
ختلفة ومعبأة j‏ | عملية الاستخراج | إجراء هذه العملية 
بالعلاقات» ومن ثم يدويًا 
توقع صيغة موحدة 
لقواعد المعرفة 
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بمعرفتنا أيّا من التعبيرات في النص تمثل الكيانات» تتلخص المهمة التالية في ربط 
الكيانات (أو إزالة الغموض في الكيانات) [111]ء وعادة يتطلب ذلك إضافة التعليقات 
على كيان Jed‏ أن يكون به بعض الغموض في مستند ما (على سبيل المثال: باريس) 
تحتوي على رابط إلى مُعرّف مقبول يصف CLS‏ فريدًا في إحدى قواعد البيانات أو علم 
الوجود de)‏ سبيل المثال: (http: / /dbpedia.org /resource /Paris‏ استخدمت 
منهجيات قواعد بيانات مختلفة الكيانات كهدف لإزالة الغموض (على سبيل المثال: 
صفحات ويكيبيديا [112-114]) وموارد البيانات المفتوحة المرتبطة (على سبيل المثال: 
(Freebase [118] 117] YAGO [116 115] DBpedia‏ العديد من أهداف 
التوضيح pubes‏ المشتركة والروابط» وني معظم الأحيان يمكن الربط بينهما 
]119[ كما يعد ربط إشارات OLII‏ ذه الموارد أمرًّا أساسيًا للشروحات التلقائية 
الدلالية لوثائق الويب» وقواعد المعرفة» والبحث الدلالي» والوصول إلى المعلومات 
بمختلف اللغات» والمهام الأخرى ذات الصلة. 

ربط الكيان مهمة صعبة للغاية» حيث تتطلب تلك الطرق معالجة تنوعات الاسم 
الأول» حيث يمكن الإشارة إلى الكيان نفسه بطرق مختلفة (مثل نيويورك والتفاحة 
الكبيرة)» بين التحدي الثاني يمثل الغموض الكبير في الكيان» أي أن السلسلة نفسها 
ربا تشير إلى أكثر من كيان واحد (مثل باریس» فرنسا مقابل باريس» تكساس مقابل 
باريس DBpedia kws (bs‏ يحتوي على ملايين الاحتالات» يمثل غموض 
الكيان CA‏ صعبًا للغاية» حيث قد يكون للنص أكثر من مائة نتيجة في قاعدة المعرفة» 
وهناك تحد آخر صعب للغاية وهو وجود كيانات مفقودة» أي تكون النتيجة عدم وجود 
كيان مُستهدّف مناسب في قاعدة المعرفة. 

تتضمن منهجيات ربط كيانات الأساء bale NEL‏ مرحلة اختيار المرشح» التي 
تحدد كافة مُدخلات قاعدة المعرفة المْرشّحَة للكيان الحدد المذكور في النص» ويلى ذلك 
مرحلة إزالة الغموض في المرجعية (أو تحليل الكيان)» التي 34 TO OLSI‏ 
الأعلى احتمالاً بين جميع الكيانات iÉ AI‏ تميل خطوة إزالة الغموض في المرجعية هذه 
إلى استخدام المعلومات السياقية من النص» وكذلك المعرفة من علم الأنماط لاختيار 
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عنوان URI‏ المناسب. يمكن إزالة الغموض في الإشارات النصية إما بصورة منفصل 
بعضها عن بعض» أو بصورة جماعية عبر الوثيقة بأكملها 1161 120]. ۰ 

الكثير من العمل حول ربط الكيانات يحقق فرضية العالم المغلق, آي أن هناك دومًا 
كيانا مُستهدّفا في قاعدة المعرفة» ومع ذلك» فالأمر بالنسبة للكثير من أنواع الوثائق 
Y.)‏ سيها وسائل الإعلام الاجتتاعية) وكذلك التطبيقات محدود للغاية» لأن تلك 
الكيانات Bale‏ تكون غير جديرة بالاهتام» أو مُكتملة الأركان بشكل يمنع إدراجها 
في موسوعة ويكيبيديا أو مورد البيانات المفتوحة المرتبطة LOD‏ (يمكنك الرجوع إلى 
المناقشة السابقة في الفصل الثالث حول الكيانات الناشئة حديثا)» ولذلك» OB‏ مهمة 
ربط كيانات الأسماء NEL‏ الأكثر صعوبة هي إما إظهار نتيجة مُدخل مطابق من 
قاعدة المعرفة الُستهدفة (على سبيل المثال:عنو DBpedia) URI Y‏ أو URL ol ye‏ 
لويكيبيديا) أو NIL‏ للإشارة إلى أنه لا يوجد كيان مطابق. 


١-٠‏ ربط كيانات الأسماء والربط الدلالى 


مهتم الربط الدلالي بمسألة كبيرة تتمثل في تحديد الموضوعات (مثل التكنولوجيا) 
والكيانات (على سبيل المثال: آي GU‏ التى تستحوذ على أفضل معنى للمستند. يشار 
كذلك إلى الربط JYI‏ بمهمة taboutness?‏ ]121[ أو ”02777“ (مفاهيم ويكيبيديا) 
ومهام ”2۷ء8“ (مفاهيم مُسجلة في ويكيبيديا) [121]. 


Eole‏ يستند الربط الدلالي السليم إلى أدلة سياقية خفية» ويحتاج إلى الجمع مع المعرفة 
العالمية. على سبيل المثال» التغريدة التي يذكر فيها آي باد تجعل شركة آبل كيانًا ذات 
صلة» وذلك بسبب العلاقة الضمنية بين الكيانين (آي باد وآبل)» ما يترتب عليه ألا 
يستلزم ذكر الكيانات والموضوعات المرتبطة بشكل صريح في نص الوثيقة» بينا من 
منظور تنفيذي» تشتمل مهمة ال حيثية على تحديد الكيانات ذات الصلة على مستوى 
الوثيقة بأكملهاء مع تخطي خطوة تحديد كيانات الأساء NER‏ التي تشتمل على تحديد 
إشارات الكيان الصريح أولا. 
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على النقيض» OP‏ مهمة ربط كيانات الأسماء NEL‏ المعنية في هذا الفصل» تتعلق 
بإزالة الغموض في الكيانات المذكورة صراحة فقطء وني هذه الحالة» لا يلزم تحديد 
إشارات الكيان فقط من خلال تحديد وتصنيف كيانات NERC «(UI‏ بل كذلك 
تحديد هوية الكيان الفريد المُستهدّف OLSI col yak (NIL e iY D‏ وبا أن إشارات 
الكناة كين اة لن يتم حذفهاء فإن EN‏ ربط كيانات الأسماء NEL‏ يعتمد بشكل 
كبير على أداء تحديد وتصنيف كيانات NERC «LANI‏ 


NEL مجموعات البيانات لربط كيانات الأسماء‎ Y-o 

تم إنشاء أول بنية لربط كيانات الأساء NEL‏ كجزء من مبادرات ربط الكيانات 
TAC-KBP‏ ]023 124]. التى تحنوي على وثائق وكيان واحد محدد لكل وثيقة» وهو 
ا نکی تر رم ها إذا كان Sa‏ لقاعدة NIL Gs ai all‏ رق of le‏ الكيان 
المذكور متوافر بالفعل» وهناك وثيقة واحدة فقط لكل وثيقة» فإن هذه البنية محدودة إلى 

توجد قاعدة بيانات أقدم تدعى AQUAINT”‏ تحتوي على تعليقات وشروحات 
من نسخة قديمة من موسوعة ويكيبيدياء كا أنها ليست مخصصة لربط الكيانات المعرفة 
فقط بل تشمل مصطلحات من صفحات ويكيبيدياء نما يجعلها أكثر ملاءمة لتقييم الربط 
الدلالي» بدلا من منهجيات ربط كيانات الأسماء NEL‏ المستندة إلى البيانات المفتوحة 
.LOD äks ÍI‏ 

تتكون AIDA /CoNLL i‏ ]116[ من مقالات إخبارية مشروحة مع cU‏ 
الموارد الُْوحّدة YAGO‏ وتنقسم إلى التدريب» والتطوير» والاختبار. تحتوي وحدة 
الاختبار وحدها على Y Y‏ وثيقة مع ٤, EAO‏ من الشروحات Ag ll‏ 

سعيًا لمتابعة العمل» أصدر المؤلفون قاعدة بيانات AIDA-EE xl‏ ]125[ 
تحتوي على ٠٠١‏ وثيقةٍ مع أسماء OUS 4, AVT‏ مرتبطة بالإصدار ۲٠٠١‏ من موسوعة 
ويكيبيديا. هذه المجموعة من البيانات متحيزة نظرًا OX‏ كافة إشارات الكيانات تم 


l- http:/aksw.org/Projects/N3JNERNEDNIF.html 
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التعرف عليها تلقاتيًا للمرة الأولى باستخدام أداة تحديد كيانات الأسماء ستانفورد 
NER‏ وتم ربط تلك الإشارات يدويا إلى صفحة ويكيبيديا المناسبة. بشكل عملي» هذا 
يعني أن إشارات الكيانات التي لم يحددها نظام ستانفورد سوف تعد غير صحيحة أثناء 
التقييم» على الرغم من أن نظام ربط كيانات NEL e| MI‏ قد يكون صحيحًا. 

هناك مجموعة بيانات حديثة أخرى هي 3× تحتوي على ثلاثة مكانز باللغتين 
الإنجليزية والألمانية مع كيانات أضيفت إليها الحواشي والتعليقات يدويّاء وهي مرتبطة 
بعنوانات معرٌّفات الموارد الموخدة .DBpedia URIs‏ 

المكانز متناهية الصغر التي أنشئت خصيصًا لربط كيانات الأسماء NEL‏ والتي 
تنشد إل ill coti‏ ك الم LOD zl‏ تعد ختدووة للغاة de‏ سبيل So UU‏ 
Ritteris‏ ]126[ يحتوي فقط على أنواع الكيانات» في حين أن تلك الكيانات من 
منافسات MSM‏ ]1127 128] جعلت إشارات اسم المستخدم وكذلك عنوانات URL‏ 
مجهولة المصدر. المكانز التي أنشئت للربط الدلالي» مثل Meij‏ [121]» ليست مناسبة 
GU‏ لتقييم ربط cele LLS‏ نتيجة وجود كيانات ضمنية وموضوعات عامة (مثل 
«الموقع الإلكتروني»» «قابلية الاستخدام)» «الحمهور المستهدف)). 

يحتوي مكنز YODIE‏ الخاص بموقع تويتر على قرابة ۸٠١‏ تغريدة» أضيف إليها 
التعليقات والحواشي بواسطة عنوان URI‏ من DBpedia‏ بواسطة العديد من الخبراء 
[129]. تحتوي التغريدات على وسوم وعنوانات URLs‏ وإشارات المستخدمين» 
با في ذلك العديد من عنوانات URIs‏ من DBpedia‏ المقابلة (على سبيل JAI‏ @ 
Ke «eonenergyuk‏ تنقسم OLLI ie pat‏ المتاحة بشكل عام إلى أجزاء تدريبية 


وة تقسمة متكافئة. 


- o 


1- https://gate.ac.uk/applications/yodie.html 
2- https://gate.ac.uk/applications/yodie.html 
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ه-" المنهجيات المستندة إلى البيانات المفتوحة المرتبطة LOD‏ 

عادة تحتوي طرق ربط الكيانات المستندة إلى علم الوجود وطرق إزالة الغموض 
على قاموس للمصطلحات لعنوان URI‏ لكل كيان على حدة باستخدام صفحات 
كيانات ويكيبيدياء وعمليات إعادة التوجيه (المستخدمة للمرادفات والاختصارات)» 
وصفحات إزالة الغموض (لختلف الكيانات التي تحمل الاسم نفسه)» والارتباطات 
التشعبية المستخدمة عند الربط بإحدى صفحات موسوعة ويكيبيديا. يستخدم هذا 
القاموس لتعريف جميع مُعرّفات الموارد الُْوكّدة OLSI URIs‏ مُعرّف إحدى النصوص» 
وفيما يلي مرحلة إزالة الخموض» حيث يتم ترتيب جميع مُعرّفات الموارد الو حدة URIs‏ 
المرشحة» وكذلك تجديد درجة الموثوقية. إن لم يكن هناك كيان مطابق في قاعدة المعرفة 
المستهدّفة» تكون النتيجة هي NIL‏ 

تستند الطرق النموذجية إلى إحصائيات مكنز ويكيبيديا إلى جانب التقنيات (على 
سبيل المثال: ترد المصطلح/ حجم الوثيقة (TF /IDE‏ التي تتطابق مع المعرف الغامض 
في النص مقابل صفحات ويكيبيديا لكل كيان مرشح [115]. (ميشيلسون وآخرون) 
أوضحوا [130] كيف يمكن استخدام هذه المنهجية لاستخلاص الملف الشخصي 
الموضوع للمستخدم من تغريداته» استنادًا إلى التصنيفات المختلفة في موسوعة 
digas‏ 


SPOTLIGHT DBPEDIA !-Y-o 
المستخدمة على نطاق واسع‎ DBpedia واحد من أنظمة الشرح الدلالي المستندة إلى‎ 
وهو نظام مجاني قائم وقابل للتخصيص ومتوفر على‎ 115] DBpedia Spotlight هو‎ 
«DBpedia من‎ URIs شبكة الإنترنت» يشرح المستندات النصية من خلال عنوانات‎ 
فئة من المستوى‎ ٠٠ والتي تتميز بأكثر من‎ DBpedia وهو يستهدف أنطولوجيا‎ 
الأعلى وإجمالي ۲۷۲ فئة. من الممكن تحديد الفئات (والفئات الفرعية المندرجة)‎ 
سواءٌ أكان بإدراجها صراحة أم من خلال‎ a al المستخدمة للتعرف على الكيانات‎ 
تختار الخوارزمية في البداية الكيانات المرشحة عن طريق البحث‎ .5۶۸۸Q1 استعلام‎ 
في القاموس المستيد إلى الموسوعة من ويكيبيديا الذي محتوي عل التعبيرات المقرداتية‎ 
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ويرتبط كل مورد DBpedia‏ بوثيقة» أنشئت من جميع الفقرات المذكور فيها هذا المفهوم 
في ويكيبيدياء ويتضح أن هذه الطريقة تتفوق على أداء Zemanta ; OpenCalais‏ (انظر 
القسم 0 C-‏ بناء على اعتبار معيار ذهبى مصغر للمقالات الصحفية ]115[ 


RT @XXXX Eyeopener vs. Ryerson Quidditch team this Sunday at 4 p.m. Anyone know where to get cheap 
brooms? £fRyerson €XXXX #Rams 


QXXXX http://www.youtube.com/watch?v-eLMui7zBiXo we beat kilkenny after they beat us for the last 
4 years in the hurling. Woo!!! 


Kk its 22:48 friday nyt :D really tired so e to sleep :) good nyt x god bles xxxx 


http://dbpedia.org/resource/Irish Museum, of Modern, Art 


Amazon U.K. Offering HTC Desire Z Unlocked! 
earlier in Lo... http;//bit.ly/bsyz2H URL 


RT @XXXX: Eventful morning for Oklahoma State's Darrell Williams. Won Big 12 Rookie of the Week Award- 
and got charged with f... 


الشكل ١-١‏ : نتائج DBpedia Spotlight‏ حول التغريدات. 

يبين الشكل ١-0‏ العديد من التغريدات التي أضيفت لها التعليقات والشروحات 
في «(DBpedia Spotlight‏ حيث "m‏ النتائج بوضوح الحاجة إلى التدقيق الإملائي 
للتغريدات» وكذلك الصعوبات التي واجهت Spotlight‏ في تمييز عنوانات URLs‏ 
وكا يتضح هناء صَمّمّت الخوارزمية بشكل افتراضي لتوسيع الاستدعاء (أي إضافة 
التعليقات والشروحات إلى أكبر عدد se‏ من الكيانات» باستخدام الملايين من 
الحالات من .(DBpedia‏ نظرًا للطبيعة القصيرة والصاخبة للتغريدات» حيث من 
الممكن أن يؤدي ذلك إلى نتائج غير دقيقة» ما يترتب عليه حتمية إجراء مزيد من التقييم 
الرسمى المسنثد إلى جموعة كبيرة من البيانات المشتركة من الرسائل القصيرة في وسائل 
T‏ الاجتاعية» لتحديد أفضل القيم لمختلف معاملات DBpedia Spotlight‏ 
(على سبيل المثال: الموثوقية» والدعم). 
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YODIE Y-Y-o 
LOD حة المرقيطة‎ gall إظار إزالة غموض الكبانات المسضدة إلى مورذ الياتات‎ 
ANNIE وهو يجمع بين نظام‎ (GATE مُستند إلى‎ NED هو إطار‎ 2015 
URI a Jil وعدد من استراتيجيات اختيار مرشح حُدَّدِ المصادر‎ GATE من‎ NER 
لإزالة الغموض‎ JYI المستخدمة على نطاق واسع» ومقايبس التشابه» ونموذج التعلم‎ 
ولكل‎ NE مرشح. لكل إشارة‎ URIS å مصادر‎ 24e الذي يحدد أفضل‎ OLSI عن‎ 
بحساب عدد من الدرجات القياسية المنتظمة التي تعكس‎ YODIE مرشح» يقوم إطار‎ 
التشابه الدلالي بين الكيان المشار إليه من قبل المرشح وسياق الإشارة الخاص به:‎ 
نتائج الارتباط: أدخلت في ]131[ وتستخدم نسبة الروابط الواردة التي‎ - 
لإعطاء أفضلية إلى خيارات المرشحين‎ GUJ تتداخل في مخطط ويكيبيديا‎ 
المتطابقة.‎ 
يشبه الموضح أعلاه»‎ FLOD التشابه المستند إلى مورد البيانات المفتوحة الرتبطة‎ - 
ولكنه يستند إلى عدد العلاقات بين كل زوج من عنوانات حَُدّد المصادر الوخد‎ 
يلي).‎ kè (موضح‎ DBpedia في الرسم البياني‎ 5 
نتائج التشابه المستندة إلى النصوص: تقيس هذه الالح مدي التشابه بين السياق‎ - 
URI النصى لكيانات الأسماء والنص المقترن بكل عنوان 338 المصادر الوخد‎ 
الإشارة (انظر أدناه).‎ oiy الخاص‎ 
URI 34 j عملية تحديد كيفية الجمع بين هذه النتائج لاختيار أفضل 242 مصادر‎ 
لتحديد أفضل مرشح.‎ LibSVM® YODIE هذه العملية ذات أهمية كبيرة» ويستخدم‎ 


تتكون بيانات التدريب الخاصة بالنموذج من حالة تدريبية واحدة لكل مرشح 
المرشح هو ll‏ الصحيح لإزالة الغموض» ea‏ تحصل كل حالة على هدف خاطى إذا 


l- http://www.csie.ntu.edu.tw/-cjlin/libsvm/ 


2- http://www.nist.gov/tac/2013/K BP/ 


-YYa- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


حصل خلاف ذلك. تستخدم ختلف قيم مقاييس التشابه كخصائص للمقارنة: مما يعني 
أنه في وقت التطبيق» يعين النموذج لكل مرشح حالة إما صحيحة أو خاطتة» إلى جانب 
واحدة من الاحتالات. عملية التصنيف هذه تجري بصورة مستقلة عن المرشحين 
الآخرين لذلك الكيان» ولكن يمكن ترتيب قائمة المرشحين استنادًا إلى e e VI‏ 
ولذا يتم تعيين E‏ المصادر الوخد 0۸1 الأكثر احتمالاً بين| يتم إزالة الغموض عن 
هذا OLSI‏ ما لم تكن الاحتمالية الخاصة بهذا الكيان أقل من درجة محددة» وفي هذه 
الحالة يتم تعيين NID‏ بيانات التدريب لهذا النموذج تستند إلى بيانات TAC KBP‏ 
في الفترة بين ۲۰۰۹ CY Y S‏ باستثناء ٠٠٠١ Oie pat‏ إلى جانب مجموعة التدريب 
AIDA‏ 116 ومجموعة تدريب التغريدات الُشار إليها في القسم .۲-١‏ 


LOD مناهج رئيسة أخرى مستندة إلى مورد البيانات المفتوحة المرتبطة‎ ۳-۴-٠ 

هناك اثنان من الأنظمة الأخرى المتوافرة» من نوعي أنظمة NED‏ المستندة إلى مورد 
البيانات المفتوحة المرتبطة LOD‏ وها نظام AIDA‏ ]116 125[ ونظام AGDISTIS‏ 
E120]‏ وكلاهما منهجان أساسه) إزالة الغموض المستند إلى الرسوم البيانية» Ole‏ 
معًا إلى إزالة الغموض في جميع الكيانات المذكورة في النص. في حين أن هذه المناهج تميل 
إلى العمل بشكل رائع في الوثائق كبيرة الحجم, يكون أداؤها في التغريدات وغيرها من 
منشورات وسائل التواصل الاجتاعية القصيرة سيئًا إلى حد كبير. 

5 120] هو منهج ربط كيانات الأساء NEL‏ المستند إلى الرسوم 
البيانية الُصمم ليكون بمنزلة أداة تشخيص قاعدة المعرفة» فهو يجمع بين خوارزمية 
البحث الموضوعى المستحدث من النص التشعبى CHITS)‏ إلى جانب استراتيجيات 
توسحة اللسفية وعوامل تشابه الارتباط. تم اختبار المنهج باستخدام كل من DBpedia‏ 
 YAGO2;‏ وعلى غرار معظم أنظمة ربط كيانات الأسماء NEL‏ الأخرى الموضحة 
هناء يقوم بإزالة الغموض المتعلق بالتصنيفات الثلاثة القياسية؛ الشخص» والمنظمة» 
والمكان. في البداية» بالنسبة لكل كيان من كيانات الأسماء» يتم تحديد عدد من «Ogre M‏ 


l- http://wikipedia-miner.cms.waikato.ac.nz/ 
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وني الخطوة التالية» تستخدم خوارزمية HITS‏ لحساب التخصيص الأمثل من خلال 
إنشاء رسم بياني لإزالة الغموض. تم اختيار جميع خوارزميات التعقيد المؤقتة متعددة 
الحدود فقط» لذلك ينطبق AGDISTIS‏ على وثائق الويب كبيرة الحجم. 

هناك مثال آخر all TagMe‏ خصيصًا لشرح النصوص القصيرة فيا يتعلق 
بالموسوعة ويكيبيديا [132]. هناك تقرير J‏ حول التقييم الارن للمنهجيات 
الحديثة العامة كافة» باستثناء المنهجية الأحدث من CAGDISTIS‏ في ]122[ وذلك 
باستخدام العديد من مجموعات البيانات الإخبارية المتوافرة. 

في النهاية» OB‏ نظام ربط كيانات الأساء NEL‏ المرتبط ب YAGO‏ هو إطار 
LINDEN‏ ]117[ نظام NEL‏ يستفيد من المعلومات الدلالية الأكثر ثراء في YAGO‏ 
(التشابه الدلالي)ء بالإضافة إلى المعلومات المستندة إلى ويكيبيديا (باستخدام بنية 
الارتباط للارتباطية الدلالية). تعتمد هذه الطريقة بشكل كبر على مجموعة أدوات 
e‏ ويكيبيديا ELLA]‏ الذي ed‏ لتحليل سياق إشارة الكيان الغامض وتحديد 
مفاهيم ويكيبيديا. أظهر تقييم مجموعة بيانات TAC-KBP2009‏ تفوق LINDEN‏ 
على أفضل الأنظمة الُستندة إلى ويكيبيديا فقط التي خضعت لتقييم QUI TAC‏ لسوء 
i LAI‏ تتم مقارنة LINDEN‏ مباشرة مع DBpedia Spotlight‏ من حيث مجموعة 
بيانات التقييم المشتركة. 


٠-٥‏ الخدمات التجارية لربط الكيانات 

هناك عدد من خدمات ربط الكيانات التجارية على شبكة الإنترنت تقوم بتعيين 
عنوانات URIs‏ الخاصة بالبيانات المرتبطة» أداة NERD‏ على شبكة الإنترنت ]119[ 
تسمح بالمقارنة السهلة وفق مجموعات البيانات التي يقوم بتحميلها المستخدم» (S‏ تقوم 
بتوحيد نتائجها ورسم العلاقات البيانية بينها إلى سحابة البيانات المرتبطة المفتوحة. 
سوف نركز هنا فقط على الخدمات التي تستخدمها أساليب البحث التي نستعرضها 
]133-135[ 


l- http://vvv.zamanta.com 
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oO هي أداة الشرح الدلالي على شبكة الإنترنت» التي طورت في‎ ‘Zemanta 
«e gn ll لأنظمة المدونات ورسائل البريد الإلكتروني لمساعدة المستخدمين على إدراج‎ 
مثالا للنص والعلامات الموصى‎ ۲-١ والروابط من خلال التوصيات. يعرض الشكل‎ 
W3C وصفحة‎ W3C والأهداف المحتملة للروابط النصية (مثل مقالة ويكيبيديا‎ y اء‎ 
الرئيسة)» وغيرها من المقالات ذات الصلة» ومن ثم يعود الأمر إلى المستخدم ليقرر‎ 
من العلامات يجب استخدامها والأهداف المحتملة للروابط النصية التي يرغب‎ Gl 
في إضافتها. في هذا المثال» تم تظليل الروابط النصية الخاصة بالمصطلحات باللون‎ 
البرتقاليء وكلها تشير إلى مقالات ويكيبيديا حول الموضوعات ذات الصلة.‎ 

5 هي إحدى الخدمات التجارية لإضافة التعليقات والشروحات 
الدلالية على شبكة الإنترنت» والتي تستخدم من قبل بعض الباحثين في Jue‏ 
وسائل التواصل الاجتاعية. على سبيل المثال» (أبيل وآخرون). ]134[ استخدموا 
319 للتعرف على كيانات الأسماء في التغريدات الإخبارية”". الكيانات 
Gigh‏ عادة ما تكون المواقع والشركات والأشخاص والعنوانات وأرقام هاتف 
والمنتجات والأفلام» ...الخ. الأحداث والحقائق التي يتم استخلاصها هي تلك التي 
تحتوي على الكيانات المذكورة أعلاه» على سبيل المثال» الاستحواذات» والتحالفات 
التجارية؛ والشركات المنافسة. يبين الشكل ١‏ ,۸ مثالا على نص أضيفت له التعليقات 
والحواشي باستخدام بعض الكيانات. 


. مجموعة البيانات الخاصة بهم‎  OpenCalais للأسف» لم يقوموا بتقييم مدى دقة تعريف كيانات الأسماء من‎ - ١ 


2- http://www.nlm.nih.gov/research/umls/ 
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B I U #4 | 2 5 5 5 | X a كن‎ | 


(DXXXX http;//www.youtube.com/watch?v-eLMui7zBiXo we beat kilkenny after they beat us for 
the last 4 years in the hurling. Woo!!! 


Kk its 22:48 friday nyt :D really tired so imma go to sleep :) good nyt x god bles xxxxx 


Amazon U.K. Offering HTC Desire Z Unlocked October 11. We just got official word of the HTC 
Desire Z earlier in Lo... http://bit.ly/bsyz2H URL 


RT (0XXXX: Eventful morning for Oklahoma State's Darrell Williams. Won Big 12 Rookie of the 
Week Award- and got charged with f... 


az 


Ij Oklahoma > 
I Oklahoma VISIT 
|J Tags W/ Oklahoma VISIT 


Darrell Wiliams | | Quidditch Oklahoma State | | United States 
International Quidditch Association 
APPLY ALL 


الشكل ه-": واجهة وسوم Zemanta‏ على شبكة الإنترنت. 
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تحتوي التعليقات التوضيحية للكيانات على عنوانات URIS‏ التي تسمح بالدخول 
عير ao) HTTP.‏ ل عل col glue‏ عاف سرك هنذا العبان عير البانات Ma M‏ 
في الوقت الحالي» ترتبط وصلات 0600021815 بثانية من مجموعات البيانات 
المرتبطة» (o‏ في ذلك قاعدة المعرفة الخاصة DBpedia s cy‏ وويكيبيدياء ; IMDB‏ 
Shopping.com s‏ . هذه الأمثلة تتوافق بشكل عام مع أنواع الكيانات المندرجة تحت 
علم (الأنطولوجيا). 

القيد الرئيس لخدمة Calais‏ تتمثل في طبيعته الاستحواذية» ولتوضيح ذلك» يقوم 
المستخدمون بإرسال المستندات التي سوف يضاف إليها التعليقات والشروحات 
بواسطة خدمات الويبء ويتلقون النتائج لاحقا. ولكن لا تتوفر لهم الوسيلة لإعطاء 
3195 وجودية مختلفة لإضافة التعليقات والحواثى أو لتخصيص الطريقة التى تعمل 
l l EEEE‏ 
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٥-٥‏ ربط كيانات الأسماء NEL‏ لمحتوى وسائل التواصل الاجتاعية 

cs) no‏ منهجيات ربط كيانات الأساء NEL‏ المستئدة إل البيانات المفتوحة المرتبظة 
LOD‏ والتي تعد أحدث التقنيات في هذا المجال وتمت مناقشتها سابقا وتم تقييمها 
استنادا إلى المقالات الإخبارية وغيرها من النصوص المكتوبة بعناية» والنصوص 
الطويلة [111» 122 وفي القسم ۲-١‏ أوضحنا أنه يوجد عدد قليل للغاية من بنية 
المدونات الصغيرة المشروحة من خلال عنوانات URIS‏ المستندة إلى البيانات المفتوحة 
LOD ihs‏ وهي بالإضافة إلى ذلك صغيرة وغير مكتملة. 

علاوة على ذلك» قام الباحثون بتقييم ربط كيانات الأسماء NEL‏ للمدونات 
الصغيرة» على سبيل المثال» ]67 أوضحت المنهجيات المتطورة نوعًا من الأداء 
الضعيف. نظرًا للسياق المحدود» والتشويشات اللغوية» واستخدام الرموز التعبيرية» 
والمختصرات» والوسوم. يتم التعامل مع كل منشور في المدونات الصغيرة بشكل 
منفصلء دون الأخذ بعين الاعتبار السياق الأعرض نطاقاء وبشكل خاص» تتم معالحة 
نصوص التغريدة فقط» على الرغم من حقيقة أن كائن JSON‏ خاص بالتغريدة يحتوي 
أيضًا بيانات الملف الشخصي لصاحب التغريدة (الاسم بالكاملء والموقع الاختياري» 
ونصوص ال ملف الشخصي» وصفحة الويب). تقريبًا 1 من جميع التغريدات تحتوي 
كذلك على عنوانات URLs‏ ]136 وا V,‏ من الوسوم» As‏ 05/ من واحد على 
الأقل من إشارات المستخدم. 

ربط كيانات الأساء للمدونات الصغيرة تعد مهمة حديثة نسبيّاء وها الكثير من 
الأمور التي لم تكتشف cs‏ حيث أظهرت التقييمات المؤخرة التي تركز على التغريدات 
للمرة الأولى مشكلات في استخدام أحدث منهجيات ربط كيانات NEL «(MI‏ في 
هذا الصدد ]067 134 ويرجع ذلك إلى حد كبير إلى إيجاز التغريدات YE)‏ حرفا). 
ليس هناك الكثير من الأبحاث حول تحليل وسوم تويتر وشرحها من خلال مُدخلات 
DBpedia‏ لتعزيز البحث JYI‏ حول محتوى المدونات الصغيرة» في [137] مثالا على 
ذلك. بينا حققت منهجيات تستند إلى الرسوم البيانية المعرفية للتغلب على التحديات 
المتمثلة في وجود سياق محدود جدًا بعض النجاح في هذا الصدد [138]. 
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استخدم شين وآخرون ]139[ مزيدًا من التغريدات من المنشورات اليومية 
للمستخدم لتحديد الموضوعات المحددة لهوية المستخدم واستخدامها لتحسين إزالة 
الغموض. (هوانغ وآخرون) ]140[ قاموا بعمل امتداد لإزالة الغموض المستند إلى 
الرسم البياني حيث يعرض «مسارات فوقية» توضح السياق من تغريدات أخرى من 
خلال الوسوم المشتركة» وصاحب التغريدات» أو الإشارات. 

غاطاني وآخرون ]141[ استفادوا من توسيع URL Ol ge‏ واستخدموا السياق 
المستمد من تغريدات المستخدم نفسه التي تحتوي على الوسوم نفسهاء ولكن ل يقيّموا 
مساهمة هذا السياق في الأداء النهائي» وكذلك لم يستفيدوا من مُعرفات الوسوم أو 
الملفات الشخصية للمستخدم. 

أحد الأبحاث الأخيرة ]129[ درس التأثير على أداء ربط كيانات الأسماء NEL‏ 
لاستخدام توسعة السياق» والمعلومات حول السيرة الذاتية للمستخدم. ومُعرّقَات 
الوسوم» وبشكل خاص» في حالة الوسوم» يتم إثراء محتوى التغريدات باستخدام 
مُعرفات الوسوم» التي يتم استردادها تلقائيًا من شبكة الإنترنت. وكذلكء يتم إثراء 
التغريدات التي تحتوي على الإشارة mentions@‏ بالمعلومات النصية من الملف 
الشخصي على تويتر. في حالة عنوانات URLs‏ يتم إلحاق محتوى الويب المقابل إلى 
التغريدة» بين| يقاس أداء إزالة الغموض سواءٌ أكان عند تنفيذ هذا التوسع في السياق 
بشكل فردي (أي الوسوم فقط» وعنوانات URLs‏ فقط, ...الخ)» أم عند استخدام 
el MI‏ الثلاثة من المعلومات السياقية معًا. 
٠-٥‏ المناقشة 

ثبت استعراض ربط الكيانات المستندة إلى موسوعة ويكيبيديا والمستندة إلى 
البيانات المفتوحة LOD ikg Åi‏ أن غالبية الدراسات ركزت على عدد قليل من 
الكيانات الشائعة» والمفهومة جيدًا؛ وتحديدا الأشخاصء» والمواقع» والمنظات» dis‏ 
بعض الأحيان المتتجات. تتمحور التحديات الحقيقية في توسعة هذه المجموعة لتشمل 
أنواعًا جديدة من الكيانات» حيث سيؤدي ذلك أيضًا إلى زيادة الغموضء ومن ثم إلى 
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الحد من أداء أساليب ربط كيانات الأسماء NEL‏ وثمة مشكلة رئيسة أخرى لم تدرس 
بالشكل الوافي حتى الآن وتتمثل في تحسين خوارزميات ربط كيانات الأسماء NEL‏ 
لمنشورات وسائل التواصل الاجتاعية» حيث يكون السياق والمحتوى النصي مختلفين 
تاق عاسم به l T TNR‏ 

التحدي الرئيس الآخر يتمثل في توسعة النطاق ليشمل لغات أخرى غير اللغة 
الإنجليزية» حيث يحتاج الباحثون كذلك إلى مجموعات بيانات جديدة من التدريب 
والتقييم» وخاصة تلك التي تتعلق بمحتوى وسائل التواصل «rem I‏ في حين 
أن هناك بعض الطرق التي تعالج العديد من اللغات (على سبيل المثال: DBpedia‏ 
es «(YODIE ; Spotlight‏ لا يزال الجزء الأكبر من الأبحاث حول ربط كيانات 
الأسماء NEL‏ يجري على مجموعات بيانات اللغة الإنجليزية. 
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الفصل السادس 
تطوير الأنطولوجيا الآلي 
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١-5‏ مقدمة 
في هذا c haill‏ سوف نستعرض مفهوم تطوير الأنطولوجيا [أو كا يطلق عليها 
«خرائط المعاني أو المفاهيم»] بصورة آلية والذي يضم ثلاثة مكونات» وهي التعلم 
والتعبئة والتنقيح. تشير عملية التعلم الأنطولوجي (التوليد الأنطولوجي) إلى مهمة 
إنشاء أنطولوجيا جديدة بدءًا من الصفرء وتتعلق بصفة عامة بمهمة تحديد المفاهيم 
وتوليد العلاقات ذات الصلة بين تلك المفاهيم. تتكون عملية تعبئة الأنطولوجيا من 
إضافة (instances) oY‏ إلى هيكل أنطولوجي موجود مسبقا (جرى إنشاؤه على 
سبيل المثال بواسطة مهمة التعلم الأنطولوجي). تشمل مهمة تنقيح الأنطولوجيا 
إضافة مفاهيم وعلاقات و/ أو حالات (instances)‏ جديدة أو حذفها أو تغييرها 
ضمن أنطولوجيا موجودة مسبقا. يمكن استخدام التعلم الأنطولوجي أيضًا للإشارة 
إلى جميع المهام الثلاث» وبالأخص عندما يتم تنفيذ مهمتي التعلم والتعبئة عبر منهجية 
واحدة. تتمثل نقطة البداية عادة في جميع مكونات عملية تطوير الأنطولوجيا بمكنز كبير 
يضم نصوصًا غير مهيكلة (قد يكون هذا المكنز شبكة الإنترنت بأكملهاء أو مجموعة من 
الوثائق ذات نطاق حر). نحن لسنا مهتمين هنا بعملية إنشاء الأنطولوجيا بدءًا من 

الصفرء Le‏ لا تشمل في العادة استخدام أساليب معالجة اللغات الطبيعية. 

في بقية أجزاء هذا الفصل» سوف نشرح هذه المهمة بالتفصيلء كما سنشرح ما تحمله 
من أوجه شبه واختلاف مع عملية إضافة التعليقات والشروحات «(annotation)‏ 
وسنقدم أمثلة تدل على فائدتها. بعد ذلك سوف نشرح عددًا من المنهجيات المعتادة» 
ومرة أخرى سنبني على أساس الأدوات التي ورد شرحها في الفصول السابقة. ينبغي 
ملاحظة أن هناك عددًا من الكتب المهمة التي تتناول تعلم الأنطولوجيا وتعبتتهاء 
وتختلف هذه الكتب في المنظور الذي اعتمد عليه في تأليفها -راجع» على سبيل المثال 
]142-144[ إِذَا سنقدم في هذا الفصل تلخيصًا لعدد من أبرز المفاهيم» وذلك من 
منظور معالحة اللغات الطبيعية. 
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7-5 المبادئ الأساسية 

من الواضح أن الأنطولوجيات ذات أهمية قصوى في تطبيقات الويب الدلالي. وفي 
حين يوجد الآلاف من الأنطولوجيات الموجودة مسبقاء التي تتراوح في حجمها ما بين 
أنطولوجيات ذات نطاق صغير - وذات تطبيق code‏ إلى أنطولوجيات ضخمة وشاملة 
مثل DBpedia‏ إلا أنها عادة ما تكون غير كافية أو غير مناسبة لمهمة معينة. أضف إلى 
ذلك أن الأدوات والتطبيقات الجديدة قد تتطلب أنواعًا جديدة من الأنطولوجيات» 
على سبيل JEN‏ يتطلب الاهتمام المتزايد في الآونة الأخيرة تعدين الآراء داخل ei‏ 
المتتجات أنطولوجيات خاصة قادرة على التعرف على خصائص معينة في المنتجات. 
إذا كان المرء يرغب في تحليل الآراء المتعلقة بالكاميرات» فعليه معرفة جميع المكونات 
المختلفة للكاميرا وطبيعة العلاقة بينها - العدسات وأنواع البطاريات والمقاسات والجهة 
المصنعة وما شابهها. وبالمثل» تضم الفنادق خصائص من قبيل عدد الغرف والمطعم 
والمقهى وحمام السباحة والخدمة وغيرها. هذه الخصائص ليست من مكونات الفندق 
بالمعنى الدقيق للكلمة» لذا فإنها قد لا ترد بالضرورة في «أنطولوجيا فندق» نموذجية. 
سوف نتناول تعدين الآراء المتصل بالخصائص بشكل أكبر في الفصل السابع. 

بصورة عامة» ليست عملية إنشاء الأنطولوجيات يدويًا مجدية أو قابلة للتطبيق؛ ما 
عدا الأنطولوجيات الخاصة بنطاقات محدودة lia‏ كلعب الأطفالء أو في حالات خاصة 
dio‏ وهي تتطلب جهدًا بشريًا وتكاليف كبيرة» إلى جانب كونها غير موضوعية. من 
جهة أخرىء فإن الإنشاء الآلي للأنطولوجيات معرض للأخطاءء فجودته رهن بجودة 
البيانات التي يتم توليد الأنطولوجيا منها في أحسن ال حالات, ونادرًا ما تكون هذه 
البيانات كاملة» كا أنها تسبب معضلة من ناحية أن استخراج العلاقات الصحيحة بين 
عناصر الأنطولوجيا ليست بالمهمة السهلة» وذلك نظرًا OM‏ هذه المعلومات نادرًا ما 
ترد صراحة في البيانات. لذا يجب السعي لإيجاد حل وسط بين الإنشاء الآلي بالكامل 
للأنطولوجيا وتقل casa ti cio als‏ عدي واا اة من ية xt‏ 

d‏ حين توجد أنطولوجيات خاصة بنطاق معين» وفي بعض المجالات تكون هذه 
الأنطولوجيات شاملة (يوجد في المجال الطبي» على سبيل المثال» قواعد معرفة ضخمة 


Asus 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


مثل قاعدة OUMLS‏ المعرفية وأنطولوجيا الجينات)» لكن مع ذلك من غير المحتمل 
أن تكون أي قاعدة معرفة موجودة مسبقا كافية GU.‏ لأي تطبيق من تطبيقات الويب 
الدلالي. وإلى جانب احتمال احتوائها على أخطاء أو Jue]‏ أو تكرارء فإنها قد تكون 
$us‏ الغموض أيضًا. علاوة على ذلك» قد تتطلب الأنواع المختلفة من التطبيقات 
داخل النطاق نفسه أنواعا مختلفة من الأنطولوجيات» فقد لا تكون أنطولوجيا طبية 
عامة محددة بيا فيه الكفاية لأداء المهمة في نطاق فرعي مثل نطاق أمراض العيون مثلاً. 

هناك مشكلة أخرى وهي عدم توحيد المصطلحات. وني المقابل حتى عند توحيد 
الصطلحات. قد تظل أشكال مختلفة للمصطلحات قيد الاستخدام في مصادر 
النصوصء مثل تعبير نوبة قلبية أو تعبير pae iU‏ القَلْب. تكون الكثير من 
المصطلحات على درجة عالية من الغموض uL)‏ وهذا لا يقتصر على التفاوت بين 
المصطلحات من نطاق إلى آخر (مثال: يختلف مصطلح فأرة في نطاق ele‏ الحاسورب 
عنه في نطاق ele‏ الحيوان)» بل يشمل أيضًا الغموض داخل النطاقات نفسها (عادة 
بسبب التدني في دقة التعبير» مثال» قد يشير مصطلح رجل في الطب إلى الرجل البشرية 
أو الاصطناعية). زيادة على ذلك» قد يشير نص ما في نطاق معين إلى مفهوم يقع خارج 
ذلك النطاق ويحمل معنى يتداخل مع مفهوم يقع داخل ذلك النطاق (مثال: ورود 
الجملة التالية في تقرير طبي: ارتجاج في المخ نجم عن ضرب رأسها على رجل طاولة). 
ينبغي الأخذ في الاعتبار أساليب تكييف الأنطولوجيات مع المهمة والمجال من أجل 
تحقيق إمكاناتها بشكل كامل في التطبيقات. لذا تكون مهمة تخصيص المصادر المعجمية 
شديدة الأهمية» وهنا تلعب مهمتا التجميع وقييز المصطلحات دورًا مهنا من خلال 
هيكلة المعرفة المطلوبة. 

يمكن وصف العناصر والمنهجيات الأساسية التي تتكوّن منها عملية تطوير 
الأنطولوجيات بأنها تشبه كعكة طبقات التعلم اج (Layer Cake)‏ (الشكل 
رقم SU (Y‏ على فكرة كعكة طبقات الويب (Semantic Web layer cake) JYI‏ 
المشهورة [145]. بدءًا من أسفل الكعكة وانتقالاً إلى أعلاهاء تتمثل المهام الأساسية 


l- http://geneontology.org/ 
2- http://code.google.com/p/jatetoolkit/ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n————- O‏ 


في تمييز المصطلحات والمترادفات» حيث يجوز أن تكون المصطلحات عبارة عن مدن 
وبلدان مثلاً. تضم المستويات التالية المفاهيم والأنواع والعلاقات (الخصائص)»ء على 
سبيل المثال» تنتمي المدن إلى البلدان» وبعض المدن عواصم» ويوجد في البلدان عواصم. 
dol‏ يوجد لدينا في القمة بديبيات (axioms)‏ مثل الانفصال (disjointness)‏ لا 
يمكن للشيء أن يكون e‏ وجبلاً في الوقت نفسه). بالطبع هذه نظرة مبسطة G y‏ ما 
إلى الأمور» وفيها بعض القيود» وهي مبنية على اتباع منهجية معجمية لغرض الحصول 
على الأنطولوجيات [146]. غير أن هذه المنهجية هي بالذات المنهجية التي نتبعها في 
هذا الفصل» وذلك OM‏ غور اهتامنا يدور حول أساليب معالجة اللغات الطبيعية 
المستخدمة لغرض تطوير الأنطولوجياتء لذا فهي مناسبة جدًا. 


Vx ) country(x) ^ 3y capital of(y,x) ^Vz ( capital of(z,x) General Axioms 
—-y-z )) 


disjoint( river, mountain ) Axiom Schemata 


capital of =, located in Relation Hierarchy 


flow through( domain:river, range:geopolitical entity ) | Relations 


capital s, city, city s, geopolitical entity Concept Hierarchy 
دنع‎ country := < i(c), ||c||, Ref.(c) > Concepts 
(country, nation) Synonyms 


river, country, nation, city, capital ... Terms 


الشكل :١-5‏ كعكة طبقات التعلم الأنطولوجي (مقتبس من جيميانوء ب.: تعلم الأنطولوجيات 
ود تعبتتها من النص: الخوارزميات والتقييم Jy‏ لتطبيق» سبرینجر QU H3 Y-‏ 
Y-‏ استخراج المصطلحات 
إن التعرف على المصطلحات ذات الصلة بالنطاق هي خطوة أولى مهمة في كل 
من مهمتي تعبئة الأنطولوجيات وتوليدهاء وتعرف هذه المهمة بمهمة استخراج أو 
تمييز المصطلحات» وتعرف اختصارًا ATR‏ (التعرف JYI‏ على المصطلحات). بوجه 
عام» تجري عملية تعبئة الأنطولوجيات آليّا بواسطة نوع من أنواع أساليب استخراج 


-Y£Y- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
لكك OO‏ 


المعلومات المستندة إلى الأنطولوجيات (OBIE)‏ كما ورد شرحه في الفصل الخامس. 
وفي حين تتعلق مهمة استخراج المعلومات المستندة إلى الأنطولوجيات في العادة على 
Lud‏ كيانات الأسماء وربطها بإحدى الأنطولوجيات» وذلك لغرض تعبئة الأنطولوجياء 
تتكون هذه المهمة من تحديد المصطلحات الرئيسة داخل النص ومن ثمٌ ربطها بالمفاهيم 
الواردة في الأنطولوجيا (استخراج العلاقات). في مهمة توليد الأنطولوجياء يعثر أولا 
على المصطلحات وبعد ذلك تستخلص العلاقات الموجودة بينهاء وهو ما يشكل أساس 
الأنطولوجيا نفسها. 

يدور جدل كبير حول تعريف الامصطلح). بصفة عامة» يمكن القول: إن 
المصطلح يشير إلى مفهوم محدد يحمل سمة من سمات نطاق أو لغة فرعية. وخلافا 
لكيانات الأسماء كالأشخاص والمواقع التي عادة ما تكون ذات طبيعة عامة في ختلف 
النطاقات» إلا أن مصطلحًا تقنيًا من قبيل احْتِشاءٌ عَصل القلب يصبح تعبيرًا ذا صلة 
فقط عندما يرد في أحد المجالات الطبية» لكن لو كنا مهتمين بالمصطلحات الرياضية» 
فلن ينظر إليه على الأرجح على أنه تعبير ذو صلة» حتى لو ورد في مقال رياضي. وکا 
هو J‏ مع كيانات الأسماء» تتشكل المصطلحات G pas‏ من العبارات الاسمية. في 
بعض السياقات» ولا سيما في سياق الأنطولوجيات الموجودة مسبقاء يمكن اعتبار 
الأفعال على أا مصطلحات. لكن غالبية أساليب تييز المصطلحات المستندة إلى المكانز 
لا تعتبرها كذلك. قد يختلف تعريف العبارة الاسمية نفسه من مكان لآخرء فك| شر حنا 
في الفصل الثاني» قد تقوم بعض أدوات تجزئة النص باستخراج عبارات اسمية تضم 
عبارات حروف الجرء وقد لا يقوم بعضها الآخر بذلك. 

يمكن تنفيذ مهمة تييز المصطلحات بعدة طرق. يتمثل وجه الاختلاف الأهم الذي 
نعرضه هنا في الاختلاف بين الخوارزميات التي لا تأخذ بعين الاعتبار سوى الخصائص 
التوزيعية للمصطلحات,. مثل التكرار ومعامل تحديد الوزن 15/104 (تكرار المصطلح/ 
عكس تكرار المستند) ]147 وأساليب الاستخراج التي تستخدم المعلومات السياقية 
ذات الصلة بالمصطلحات. غير أن العديد من المنهجيات تجمع بين نوعي المعرفة. في 
العادة» تُستخدم الأساليب اللغوية في المقام الأول بغية إيجاد المصطلحات المحتملة» 


a‏ ينا 


ومن ثم تُصنف هذه المصطلحات وفقا لمدى أرجحية المصطلح. بعد ذلك يمكن 


siye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—.- 9‏ 


استخدام نقطة بداية (حد أدنى مقترح» بالإنجليزية (threshold‏ لاتخاذ قرار مطلق بين 
ما يمكن اعتباره مصطلحًا وما لا يمكن اعتباره كذلك» وهذه خطوة شديدة الأهمية 
في معظم التطبيقات. بالنظر لكون مهمة تقييم عملية تصنيف المصطلحات US eis‏ 
بالغة الصعوبة وذاتية» حيث يمكن أن يختلف الحل الأمثل اعتمادًا على طبيعة المهمة» 
فقد جرى تطوير مجموعة من أطر العمل الخاصة باستخراج المصطلحات» حيث يمكن 
تجريب جميع الحلول أو الأشكال المختلفة ومقارنة بعضها ببعض. من الأمثلة الجيدة على 
ذلك نظام T TermRaider‏ شر حه) ونظام .JATE‏ 


١-7-5‏ منهحيات المعرفة التوزيعية 

تستخدم هذه المنهجيات في العادة أساليب تعتمد على التكرار مبنية على أساس 
نموذج 1/104]. يعكس نموذج tf /idf‏ (تكرار المصطلح/ عكس تكرار المستند) مدى 
أهمية الكلمة بالنسبة لمستند ما ضمن مجموعة. ونظرًا لورود بعض الكلمات بصورة 
متكررة جدًا في جميع النطاقات» تصبح قيمة tf id‏ معدلة تبعًا لذلك» حيث تزداد Éo b‏ 
مع زيادة عدد مرات ورود كلمةٍ ما في المستنده لكن تكرار الكلمة في المكنز يوازن ذلك. 
يتمثل المبداً الذي يستند عليه استخدام هذه القيمة في مهمة استخراج المصطلحات 
في أننا نتوقع أن ترد المصطلحات بتكرار أكبر في مكنز ما ذي صلة بالنطاق» أكثر من 
ورودها في نطاق غير ذي صلة؛ في حين أن غير المصطلحات (non-terms)‏ سوف 
تظهر في كلا المكنزين موزعة بالتساوي» أو حتى بتكرار أقل في المكنز الخاص بالنطاق. 
على سبيل المثال» نتوقع أن يرد المصطلح اخْتشاءٌ عَصَل القلب بتكرار أكبر في مكنز طبي 
مقارنة بمكنز مؤلف من النصوص الرياضية. d]‏ نستخدم نموذج tf /idf‏ في العادة 
للمقارنة بين مكنز خاص بنطاق معين ومكنز عام» بدلاً من مقارنة مستند واحد بمكنز 
واحد. 

هناك العديد من الاختلافات والتحسينات المدخلة على نموذج /idf‏ ا الأساسى. 
نظام 1 من الملحقات الإضافية ضمن منصة GATE‏ المستخدمة في 
مهمة استخراج المصطلحات التي تقوم بتوليد المصطلحات المحتملة من أحد المكانزء 


1- https://gate.ac.uk/projects/arcomem/TermRaider.html 


2- http:///www.nactem.ac.uk/software/termine/ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EN‏ ااا 


إلى جانب درجة المصطلحية (statehood)‏ المشتقة إحصائيًا. ومثل معظم أساليب 
استخراج المصطلحاتء يتعرف النظام أولا على المصطلحات المحتملة بناءً على المبادئ 
اللغويةء وبعد ذلك يقوم بتصفيتها وتصنيفها. تعتمد عملية تمييز الملصطلحات المحتملة 
الأولية في نظام TermRaider‏ على المعالجة اللغوية المسبقة (تجزئة الجمل» تصنيف أقسام 
الكلام؛ إزالة الزوائد والعودة إلى أصل الكلمةء وتجزئة العبارات الاسمية)» التي يجري 
تنفيذها عادة في منصة GATE‏ بواسطة أداة ANNIE‏ أو TwitIE ll‏ (رغم إمكانية 
استخدام أدوات أخرى بدلاً من ذلك). بعدها تُستخلص المصطلحات المحتملة من 
النص بواسطة القواعد النحوية التى تفرض بدورها قيودًا على العبارات الاسمية» 
مثل استثناء بعض الكلمات المستبعدة المتكررة. dol‏ يطبق نموذج tf /idf‏ على المكنز» 
وهو ما يعطينا درجة تدل على مدى أهمية كل مصطلح محتمل في كل مستند. بعد ذلك 
يجري اختيار جميع المصطلحات المحتملة الحاصلة على درجة 16/104 del‏ من قيمة 
الحد الأدنى التى سبق تحديدها يدويًا (تحدد هذه القيمة لتكون معامل وقت التشغيل) 
p‏ 

إضافة إلى ذلك» OAKA uad‏ رئيسان إضافيان من أشكال نموذج tf /idf‏ داخل 
نظام .TermRaider‏ تضم قيمة 11/108 المعززة معلومات عن الكلمات المندرجة 
(hyponyms)‏ تحت المصطلحات. ÎMI‏ المعتمد هنا هو أن المصطلحات التي تندرج 
تحتها كلمات أخرى يرجح أن تكون مصطلحات صحيحة. تمثل الدرجة الحد الأقصى 
لقيمة tf /idf‏ المعززة المحلية الخاصة بالمصطلح المحتمل» وتحتسب هذه القيمة عن 
طريق الجمع بين درجة 16/101 الخاصة بالمصطلح المحتمل وبين درجات tf /idf‏ الخاصة 
بجميع الكلمات المندرجة (hyponyms)‏ تحت المصطلح المحتمل التي يعثر عليها حول 
تلك الحالة (occurrence)‏ هناك شكل آخر وهو درجة كيوتو i^ (Kyoto)‏ 
النطاق ]148[ التي تضم أيضًا عدد الكلءات المندرجة المتايزة لكل مصطلح محتمل 
يرد في المكنز بأكمله. مرة أخرى, يستند ذلك إلى المبدأ الذي ينص على أن المصطلحات 
التي توجد كلمات مندرجة تحتها هي مصطلحات صحيحة على الأرجح. 


—i£o- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


تستخدم طريقة NC-value‏ ]149[ منهجية مشابهة» وتستخدم كأساس لأدوات 
من قبيل  TerMine‏ هذه الطريقة مبنية على أساس نموذج 16/101 في المصطلحات 
المحتملة التي تستخرج بطريقة iplis‏ لأداة «TermRaider‏ لكن جرى تطويرها 
عبر إضافة معلومات تتعلق بتكرار التوارد المشترك (co-occurance)‏ مع الكلمات 
السياقية. بدورها تضيف منهجية TRUCKS‏ ]150[ خصائص إضافية عن طريق ييز 
الأجزاء المهمة في النص المحيط بالمصطلح» وقياس مدى قوة ارتباطها بالمصطلحات 
المحتملة ذات الصلة. 


7-1-5 المنهجيات التي تستخدم المعرفة السياقية 

تأخذ المنهجيات التي تستخدم المعرفة السياقية في الاعتبار الكلمات الموجودة في 
سياق المصطلحات المحتملة من أجل المساعدة في تصنيفها. يمكن استخدام أنواع 
مختلفة من المعرفة» إما بصورة فردية أو بصورة مجتمعة. في بعض الأحيان تستخدم هذه 
المعلومات من أجل استثناء مصطلحات معينة من كونها مصطلحات محتملة. لكنها 
تستخدم في غالبية الحالات على شكل أوزان تساعد في تصنيف المصطلحات. 

تتعلق المعرفة المصطلحية بحالة الكلمات السياقية. الكلمة السياقية التي تكون أيضًا 
مصطلحًا من المرجح أن تكون مؤشرًا أفضل يدل على كونها مصطلحًا مقارنة بكلمة 
سياقية ليست مصطلحًا. يعتمد هذا الآمر على الفكرة القائلة: إن المصطلحات تميل 
oY‏ تظهر مجتمعة في النص. على سبيل المثال» في منهجية TRUCKS‏ ]150[ يجري 
توليد وزن لكل مصطلح محتمل بناءً على التكرار الإجالي للمصطلح مع المصطلحات 
الأخرى الموجودة في سياقه. 

تعتمد المعرفة النحوية على الكلمات الحدودية «(boundary words)‏ آي الكلات 
التي تسبق المصطلح المحتمل أو تليه مباشرة. تشترط منهجية كلمة الحاجز barrier)‏ 
(word approach‏ ]152 ,151] أخذ المصطلح بعين الاعتبار فقط عند وجود فئات 
نحوية معينة تسبق المصطلح المحتمل أو تليه. هناك أنظمة أخرى تخصص وزنًا لكل 
فئة نحوية من الكليات السياقية المباشرة بناءً على تحليل تكرار التوارد. على سبيل «JA‏ 


-١‏ للتجميع» = للفصل» # و + و؟ للتكرار. 
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يكون الفعل الذي يرد مباشرة قبل مصطلح محتمل مؤشرًا أفضل بكثير من الناحية 
الإحصائية على مصطلح حقيقي مقارنة بالنعت. بعد ذلك يعطى كل مصطلح محتمل 
وزنًا نحويًا تحتسب عن طريق جمع أوزان الفئات لجميع الكلمات السياقية الحدودية 
الواردة معها. 

تعتمد المعرفة الدلالية على فكرة تضمين المعلومات الدلالية المتعلقة بالسياق. يعتمد 
ذلك على مبدأ ينص على أن الكلمات الموجودة في السياق التى تحمل وجه شبه كبير 
بالمصطلح المحتمل من المرجح أن تكون مهمة أو ذات ملل سكن عسات التشابة 
بعدة طرق. راجع القسم 5-5 لقراءة بعض الأمثلة. 


4-5 استخراج العلاقات 

بعد استخلاص المصطلحات ذات الصلة» يجب توليد العلاقات الموجودة بينها. 
في الآونة الأخيرة» اقتّرحت العديد من منهجيات استخراج العلاقات» وتركز هذه 
المنهجيات على مهمة تطوير الأنطولوجيات (التعلم والتمديد والتعبئة). eig‏ 
هذه المنهجيات إلى تعلم العلاقات التصنيفية القائمة بين المغاهيم» بدلاً من العناصر 
المعجمية. يختلف نوع استخراج العلاقة المطلوب لتطوير الأنطولوجيات AG‏ عن 
مهمة استخراج العلاقات التي تناولناها في الفصل الرابع» حيث كان التركيز في 
تلك المهمة على العلاقات غير التصنيفية» مثل مؤلفي الكتب» lea‏ نحن مهتمون هنا 
بالعلاقات التصنيفية من قبيل الكلمات المندرجة (hyponymy)‏ (مثال: التفاح أحد 
أنواع الفاكهة). 


١-4-5‏ أساليب التجميع 

#بدف أساليب التجميع إلى تنظيم المصطلحات وفق تسلسل هرمي يمكن تحويله 
مباشرة إلى أنطولوجياء وذلك باستخدام أسلوب من أساليب قياس BUM‏ هيدف 
إنشاء مجموعة من المصطلحات أو الدمج بينها. يقيس هذا الأسلوب مدى شبه 
يمكن استخدامه لحساب الحالات instances)‏ الأكثر نموذجية لمفهوم معين» مثل 
المفهوم الأقرب إلى الحالة المركزية (الحالة «المتوسطة» الافتراضية في المجموعة). هذه 
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المنهجية تتطلب أولاً اختيار قياس مسافة دلالي وخوارزمية تجميع مناسبين. المرجع 
]153[ يحتوي على استعراض جيد للمنهجيات المختلفة ويمكن الرجوع إليه. تشمل 
أمثلة أساليب التجميع حيز المتجهات (vector space)‏ ]154[ والشبكات الترابطية 
[155] ومنهجيات المجموعات النظرية [156]. 

5-5-5 العلاقات الدلالية 

تقوم العلاقات الدلالية المبنية على الأنطولوجيا على مفهوم ينص على أن الكلمات 
المترابطة Yo‏ ترد أو تظهر على مقربة بعضها من بعض داخل الأنطولوجيا مقارنة 
بالكلمات التي يكون ترابطها أضعف. قد يكون هذا الأمر مفيدًا في عملية وضع 
المصطلحات داخل الأنطولوجيا بصورة صحيحة وفي مهام إزالة غموض المصطلحات. 
هناك عدد من المقاييس المختلفة المستخدمة لقياس درجة الترابط» ويمكن تصنيفها 
إلى ثلاثة أنواع رئيسة» وهي: الأساليب xul‏ على التكرار» والأساليب المبنية على 
القواميس» والأساليب البنية على الأمثلة. يمكن الاطلاع على وصف أطول oib‏ 
الأساليب في [154]. نورد هنا تلخيصًا لبعض من أبرزها. 

تستخدم الأساليب المبنية على التكرار بكثرة في عمليات استرجاع المعلومات» وهي 
مبنية على الخصائص الإحصائية للكلمات الموجودة في المكانز. تضم هذه الأساليب قياس 
جاكارد (Jaccard)‏ الموزون ]158[ وأساليب التوارد المشترك البسيط (مثال: تكرار 
التوارد المشترك والمعلومات المتبادلة ونسبة الترابط) والأساليب القائمة على المتجهات» 
وهذه الأساليب تقيس درجة التشابه بين الكلمات باستخدام حاصل الضرب النقطي 
أو الجداء القياسي (product dot)‏ أو دالة جيب (cosine function) ele‏ أو المسافة 
الإقليدية (Euclidean distance)‏ بين متجهين يمثلان سياقات الكلات المقدمة في 
تعريفه|. يجري حساب المتجه الخاص بالسياق عن طريق إضافة متجهات معلومات 
التوارد المشترك الخاصة بالكلمات الموجودة في التعريف. ويمكن إيجاد ذلك عن طريق 
توارد بسيط. 

تعتمد الأساليب المبنية على القواميس على قاموس أو أنطولوجيا مهيكلة وفق 
تسلسل هرمي» حيث sad‏ أوزان ARE‏ الموجودة في التسلسل بشكل عام SU‏ على 
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التكرار أو الاحتمالية. تشمل الأساليب الشائعة لحساب أوجه التشابه المسافة المفاهيمية 
والمسافة الدلالية والأشكال المختلفة. المسافة المفهومية [159] هى مسافة الممر الأقصر 
الرابط بين الحالات Ginstances)‏ كلها في التسلسل الهرمى. تُقاس المسافة الدلالية 
[160] بواسطة محتوى المعلومات الخاص Abstraction Most Specific Common.‏ 
(MSCA)‏ -الفئة الأكثر تحديدًا في التسلسل ال هرمي التي تندرج تحتها كلتا الفئتان. 
محتسب محتوى المعلومات من خلال تقدير احتهال ورود الفئة داخل أحد المكانز. يمكن 
كذلك أخذ عمق العقدة في التسلسل ال هرمي بعين الاعتبار» وذلك OY‏ العقد التي 
توجد في مستويات عميقة من التسلسل الهرمي تميل لأن تكون متشايهة بصورة كبرى. 

تُستخدم الأساليب البنية على الأمثلة بكثرة في الترجمة الآلية» ودف إلى اختيار 
التجربة الأكثر شبهًا بمشكلة معينة. تجمع هذه الأساليب عادة بين هياكل ذات تسلسل 
هرمي ومجموعة من الأمثلة المأخوذة من أحد المكانز. تشمل هذه الأساليب رسوم 
الخصائص الموزونة ]161[ وتقارب الكلمات ]162[ وخوارزميات التطابق الأفضل 
[163] والمسافة الدلالية الموزونة المعتمدة على الأمثلة [164]. 

تُستخدم الأساليب الدلالية المستندة إلى المكانز في الغالب في مهمة استخراج 
العلاقات بهدف إنشاء الأنطولوجيات. تقوم هذه الأساليب على فكرة أن الكلمات 
المترابطة دلاليًا ترد معًا في النص. علاوة على ذلك» تتوارد مثل هذه الكلمات بتكرار أكبر 
مقارنة بالكلمات غير المترابطة (أو التي يكون ترابطها أقل قوة). على سبيل المثال» التفاح 
أكثر ارتباطًا بالبرتقال من الأحذية» وذلك ON‏ كليهم| من أنواع الفاكهة بينم الأحذية 
ليست كذلك. لذا فإننا نتوقع أن ترد كلمة تفاح في النص نفسه بتكرار أكبر مع كلمة 
برتقال مقارنة بكلمة أحذية. عن طريق مقارنة تكرارات هذين التواردين» يمكننا تحديد 
أن التفاح والبرتقال بينهما ارتباط أقوى من الارتباط الموجود بين التفاح والأحذية. تتميز 
المنهجيات المستندة إلى المكانز بكونها قائمة بذاتها ولا تتطلب أي مصادر خارجية» وهذا 
يعنى أنها مناسبة للغاية للنطاقات المتخصصة. وتميل نحو ضان أن تكون المعلومات 
pus‏ لذلك النطاق. غير أن استخدام المعلومات الناتجة عن مكنز كهذا قد تؤدي إلى 
حدوث انحراف إحصائي» وقد يكون هناك فجوات في تغطية المكنز. يبين الجدول رقم 
١-5‏ بعضًا من إيجابيات وسلبيات المنهجية القائمة على المكانز [157]. 
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الجدول 17 سلبيات وإيجابيات المنهجية المستندة إلى المكانز لاستخراج العلاقات الدلالية 


الإيجابيات السلبيات | 
استخدام أمثلة حقيقية على اللغة قد تكون الأساليب غير موثوقة 
معلومات مصممة خصيصًا للنطاق قد تكون التغطية غير كافية 
المعلومات الإحصائية متوفرة الحاجة إلى مكنز ضخم 
وجود فجوات في التغطية 
قد تكون المعلومات غامضة 


٣-٤-٦‏ الأناط المعحمية النحوية 
bul‏ هيرست هي مجموعة من BEYI‏ المعجمية النحوية التي تشير إلى وجود 
علاقات شمول (hyponymic zelationg)‏ ]165[ وقد "NY‏ هذه الأناط 
على نطاق واسع لإيجاد العلاقات بين المصطلحات وإنشاء الأنطولوجيات. تستخدم 
الأنماط أيضًا في كل من برنامجي SPRAT ; Text2Onto‏ (انظر أدناه). في العادة تحقق 
مستوى Gle‏ من الدقة إلا أن الاسترجاع معدن ie‏ لديهاء وبعبارة أخرى تتميز بالدقة 
الشديدة لكنها لا تغطي سوى مجموعة فرعية فقط من BEYI‏ الممكنة لإيجاد الكلمات 
الشاملة Chypernyms)‏ والكلمات المشمولة  (hybonyms)‏ ولهذا السبب فإنها عادة ما 
تجمع مع أنواع أخرى من الأنماط. 
يمكن وصف أناط هيرست (Hearst patterns)‏ بواسطة القواعد التالية» حيث 
تعني NP‏ عبارة اسمية بين| تحمل التعبيرات القياسية معانيها المعتادة: 
such NP as (NP.)* (or|and) NP .1‏ 
works by such authors as Herrick, Goldsmith, and Shakespeare.....: JU»‏ 
NP (NP)* (,)? (orļand) (other|another) NP .2‏ 
مثال: eet Bruises, wounds, or other injuries‏ 
NP (,)? (includinglespecially) (NP.)* (orjand) NP .3‏ 


nin All common-law countries, including Canada and England: Js 


l- http://www.bbc.co.uk/news/technology-27711109 
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هناك حالات لا تعمل فيها هذه الأمثلة. على سبيل المثال» يمكن للمرء استخراج 
كلمة الإيطاليين ككلمة مشمولة (hybonym)‏ في عبارة أوروبيون الواردة في ile‏ 
الأوروبيون» es‏ الإيطاليين» لكن ينبغي على المرء عدم استخراج الديمقراطيين 
ككلمة مشمولة (hybonym)‏ في عبارة الرؤساء الأمريكيون الواردة في ila‏ الرؤساء 
الأمريكيون. ولا سيا الديمقراطيين. 

وبناء على ما سبقء قام بير لاند وتشارنياك [166] أيضًا بتطوير بعض الأناط للتعامل 
مع أسماء الأجزاء (meronymy)‏ على سبيل المثال» لاستخراج أن عداد السرعة هو 
أحد أجزاء السيارة. فيا Lb‏ اثنان من أمثلة الأنماط: 

1. NN's NN 


... building's basement... 


2. NN of DET (JJ]NN)* NN 
... basement of a building... 

كما أن نظام SPRAT‏ الذي جرى تطويره كأحد ملحقات منصة GATE‏ والذي 
سيرد شرحه في القسم 5-5 يشمل أيضًا أناطًا إضافية. 

٠-٤-٦‏ الأساليب الإحصائية 

في حين تنتج الأن|ط المعجمية النحوية في العادة علاقات نموذجية (مثل الشمول 
((hyponymy)‏ بين المصطلحات» يمكن إيجاد علاقات تركيبية أو AS‏ (مثل 
المتلازمات اللفظية ((collocations)‏ باستخدام أساليب إحصائية. a‏ أسلوب 
المعلومات المتبادلة النقطية [167] من الأساليب المشهورة التى تقيس الاعتاد المتبادل 
بين اثنين من المتغيرات. يستخدم هذا الأسلوب عادة في لغويات المكانز كدالة أهمية 
لحساب المتلازمات اللفظية (Pointwise Mutual Information)‏ ]168[. لإيجاد 
العلاقات» يمكننا استخدام هذا الأسلوب لقياس مدى قوة الارتباط بين اثنين من 
المصطلحات داخل المستند نفسه أو المكنز [169]. 
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5-7 إثراء الأنطولوجيات 

في العادة لا تكون الأنطولوجيات ثابتة بل دائمة التطور. في البداية» قد تجري إضافة 
مفاهيم (أنواع) جديدة أو حذفها أو تحريكها. عند إجراء مثل هذه التغييرات» ينبغي 
أن تنعكس أيضًا على الحالات Cinstances)‏ والعلاقات (الخصائص). GU‏ قد يتعين 
إضافة حالات جديدة أو حذفها أو تحريكها لكي تصبح الأنطولوجيا أكثر كالاً أو 
لتصحيح المشكلات الموجودة. لإدخال تغييرات هيكلية على الأنطولوجياء ينبغي 
إعداد آليات مبدئية للتعامل مع هذا الآمر» وذلك للحيلولة دون فقدان معلومات 
صحيحة (مثال: تحريك ال حالة إلى مستوى أعلى في التسلسل الحرمي عند حذف المفهوم 
الذي تنتمى إليه تلك الحالة). غير أن هذه التغيبرات لا تتطلب في العادة تكنولوجيا 
معالحة اللخات الطبيعية. هذا السبب سوف نحصر النقاش هنا في الأساليب المستخدمة 
لإثراء الأنطولوجيات عبر إضافة حالات وعلاقات جديدة. 

من بين الأسباب الرئيسة التي تجعل الأنطولوجيا غير مكتملة في العادة وجود مشكلة 
البيانات المتناثرة. عند إنشاء أنطولوجيا باستخدام أحد المكانز» لن تكون المعلومات 
التي يحتوي عليها المكنز كاملة Ul‏ -ولذلك لا نتوقع احتواء أي مجموعة من النصوص 
على جميع المصطلحات الموجودة في نطاق معين أو أن تُظهر أناطًا معجمية نحوية qo‏ 
العلاقات بين المصطلحات. يوجد هذا النوع من اختناق اكتساب المفردات lexical)‏ 
acquisition bottleneck)‏ بكثرة في مهام معالحة اللغة» وغالبًا ما تحل هذه المشكلة 
باستخدام أساليب التجميع. لغرض إثراء الأنطولوجيات» يمكن استخدام الأطر 
الدلالية. تعود هذه الفكرة إلى أواخر الستينات مع ظهور الفرضية التوزيعية ]167[ 
التي طرحها هاريس (أي أن الكلمات التي تظهر في السياق نفسه تيل لأن تحمل معاني 
معشاية): Uie VE‏ الى قت ف السبعينات [170, 171] الى ر کرت غل Aj‏ 
مجموعات من أنواع Usa‏ الخاصة باللغات الفرعية ENEMY‏ نحوية مستقاة 
من نصوص خاصة بالنطاق. على وجه الخصوص» ظلت الأبحاث في هذا المجال 
تُستخدم في نطاقات محددة كالطب» حيث عادة ما يوجد عدد صغير نسييا من المياكل 
النحوية في تقارير المرضى مثلاً. تكون الحياكل هنا بسيطة للغاية» وتكون الجمل قصيرة 
وغير غامضة نسبيًا: وهو ما يجعل عملية المطابقة بين الأناط النحوية أسهل بكثير. تتمثل 
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الفكرة الأساسية في أنه يمكن إنشاء el gl‏ كلمات دلالية (ole pat)‏ عن طريق معاينة 
مجموعات من العناصر المعجمية التي توجد في بيئات نحوية محددة. على سبيل «JUI‏ 
قام (هيرشان وآخرون) ]172[ بتطوير نوع (type)‏ جديد في مجال التقارير السريرية 
هو العلامة أو العرض» يتكون من عناصر معجمية مثل نزلة برد خفيفة» مى» سعال 
طفيف» الخ» وذلك بواسطة جمع حالات العناصر المعجمية التي توجد كمفعولين بهم 
للفعل أصيبء بالإضافة إلى الفاعل مريض. يظهر في الجدول رقم 6-2 مثال على ما 
أطلقوا عليه صيغة المعلومات (information format)‏ 

منذ ذلك الوقت» أجريت الكثير من الأعمال حول اكتساب المعرفة الدلالية وفقًا 
لمنهجية iplis‏ على سبيل المثال» قام روشا ]173[ بدور ريادي في استخدام أطر 
الحالات لما يسميه ناذج تعريف الأحداث (تشبه إلى حد بعيد الأطر المستخدمة في 
عملية استخراج المعلومات لتعريف الأحداث» كا تستخدم في تقييات مؤتمرات تقييم 
الرسائل). من بين الأمثلة على أطر الحالات هذه المثال الظاهر في الجدول رقم 6-3. 


الجدول Y-T‏ صيغة المعلومات الخاصة بالنوع (العلامة) أو (العرض) 


الفاعل لفعل المفعول به 
المريض أصيب نزلة برد خفيفة 
الريض أصيب حمى 
المريض أصيب سعال طفيف 
الريض أصيب ge‏ 


الجدول رقم Y‏ مثال لإطار الحالة الذي طرحه روشا 
الفتحة الحشوة | 
العملية: أشعة سينية للصدر 
الرابط: يظهر 
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5-5 أدوات تطوير الأنطولوجيات 
في هذا القسم سوف نشرح عددًا من الآدوات المستخدمة عادة لإنشاء الأنطولوجيات 
وإثراتها lakeel ÉT‏ على أساليب معالحة اللغات الطبيعية. 


TEXT2ONTO \-5-3‏ 
أداة TEXT20NTO‏ ]174[ من أولى الأدوات وأشهرها لتطوير الأنطولوجيات 


آلا تقوم هذه الأداة باستخراج المترادفات على أسامن «Jo‏ و تجمع بين منهجيتي 
p^‏ ادر cu nue ue a‏ 
GATE‏ فإنها توفر مرونة من حيث خيارات الخوارزميات التي يمكن تطبيقها. 

SPRAT 5-5-5 

نظام SPRAT‏ (أداة لتمييز BOSE‏ الدلالية وإضافة الشروحات إليها) ]175[ 
يعد نظام SPRAT‏ مثالا لأنظمة تطوير الأنطولوجيات لنطاق الأسماك» على الرغم من 
إمكانية تطبيق منهجيته في النطاقات الأخرى. هذا النظام قادر على إنشاء أنطولوجيا 
جديدة من الصفرء أو تعديل أنطولوجيا موجودة مسبقاء وهو مبني على cs‏ الأنماط 
المعجمية النحوية. مقارنة بنظام cText2Onto‏ يضم هذا النظام عددًا أكثر من الأنماط 
العلاقات. هذا يعني أن النظام يصدر كمية أقل من البيانات» لكن يحتمل أن يكون أكثر 
دقة. 

FRED Y-*-*5 

نظام FRED‏ هو أداة إلكترونية لتحويل النصوص إلى أنطولوجيات مترابطة جاهزة 
للبيانات» وذلك باستخدام التحليل النحوي. يجمع النظام بين نظرية تمثيل الخطاب 
(DRT)‏ ودلالات الإطار اللغوي وأنماط تصميم الأنطولوجيات (ODP)‏ هذا النظام 
مبنى على oae‏ أداة Boxer‏ ]177[ اللغوية "s‏ تقوم بتوليد التمثيلات الدلالية 
الرسمية للنصء بناءً على دلالات الأحداث. وفي حين تركز الأدوات الأخرى في العادة 
بصورة رئيسة على مساعدة المستخدم في التعرف على المصطلحات الأساسية التي ينبغي 
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إضافتها إلى الأنطولوجياء يختلف نظام FRED‏ في كونه ke‏ إلى تقديم أنطولوجيات 
وبيانات مترابطة جاهزة للاستخدام. 

4-5-5 الإنشاء شبه الآلي للأنطولوجيات 

في Jue‏ هندسة الأنطولوجيات» ظهرت أناط تصميم الأنطولوجيات ]178[ 
كطريقة لمساعدة مطوري الأنطولوجيات في نمذجة OWL nn‏ وفقًا 
لأسلوب من الأعلى إلى الأسفل. ll‏ تصميم الأنطولوجيات (ODPs)‏ هي في 
الأساس مجموعات من BEYI‏ المفاهيمية "ie‏ لمساعدة المستخدمين في تصميم 
أو تنقيح الأنطولوجيات. جرى أيضًا تطوير أدوات لدعم إعادة الاستخدام شبه JYI‏ 
هذه الأدوات [179]. تستخدم هذه الأدوات نصوصًا ذات صلة بالنطاق كمدخلات 
هاء بينم| تكون مخرجاتها مجموعة من bol‏ تصميم الأنطولوجيات لحل احتياجات 
الأنطولوجيات الأولية. تجري المقابلة بين أناط تصميم الأنطولوجيات وصياغات 
اللغات ال Pus‏ 


ركزنا في هذا الفصل حتى الآن على وصف eol‏ إنشاء الأنطولوجيات من المكانز 
وفقا لأسلوب من الأعلى إلى الأسفل. من البدائل المتاحة للمستخدمين عن ليسوا من 
الخبراء عند إنشاء أنماط تصميم الأنطولوجيات (ODPs)‏ هي استخدام تراكيب الجمل 
أو اللغات المقيدة (restricted languages)‏ المصممة خصيصًا لجعل الأنطولوجيات 
أكثر قابلية للقراءة والفهم من قبل الآخرين. تشمل الأمثلة على ذلك Attemptoä‏ 
CACE) Controlled English‏ ]180[ ولغة Rabbit‏ ]181[ ولغة Sydney OWL‏ 
Syntax‏ ولغة CLOnE‏ ]182[ (لغة تعديل الأنطولوجيات المقيّدة) [183]. يبين 
الجدول رقم 4-5 عددًا من أمثلة الجمل الموجودة في هذه اللغات. تتمثل الفكرة 
الرئيسة التي تقوم عليها هذه اللغات المقيّدة في السماح للأفراد ممن ليسوا من الخبراء 
بالتعبير عن احتياجاتهم الخاصة بنمذجة الأنطولوجيات وفقا لمجموعة معينة من 
القواعد النحوية. على المرء أن يكون على دراية مسبقة بالمصطلحات والعلاقات التي 
يرغب في نمذجتهاء حيث تكمن المشكلة في تحويل هذه المصطلحات والعلاقات إلى 
الشكل الأنطولوجي الصحيح. على سبيل ال مثال» عند استخدام لغة (CLONE‏ بإمكان 
الخبير في النطاق استخدام واجهة لغة طبيعية لتحويل النص الموجود لديه إلى أنطولوجيا 
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بسيطة -مع كتابة النص في واجهة المستخدم» يجري تحويله بشكل آلي (باستخدام عملية 
معالجة اللغات الطبيعية) إلى أنواع وعلاقات في الأنطولوجيا. غير أن الصعوبة تكمن 
في أن على المستخدم كتابة النص وفقا لأسلوب محدد جدّاء وذلك حسب اللغة المقيّدة 


المستخدمة. 
الجدول ٤-٦‏ : أمثلة على اللغات المقيّدة المستخدمة في إنشاء الأنطولوجيات 
| اللغة أمثلة االجمل 
Every river-stretch has-part at-most 2 confluences. ACE‏ 
Every Bourne is a kind of stream. Rabbit‏ 
The classes petrol station and gas states are equivalent. Sydney Syntax‏ 

Projects have string names CLoNE 

TERVE 


ناقشنا في هذا الفصل مهمة إنشاء الأنطولوجيا آليا مع عرض مكوناتها الرئيسة» 
وهي التعلم والتعبئة والتنقيح. وفي حين يوجد الكثير من المنهجيات المتبعة لإنشاء 
الأنطولوجيات OT‏ إلا أننا ركزنا هنا على الأساليب المستندة إلى تقنيات معالحة اللغات 
الطبيعية Lud y‏ ثبى عل ما تاقشتاه من مكونات cales‏ منها معالحة اللغات الطبيعية 
ال سيق أن هر d Gam‏ النصول اماف p‏ افا ال رر انات CAI‏ 
واستخراج العلاقات. كما ركزنا هنا بصفة خاصة على استخراج المصطلحات نظرًا لأنها 
المكون الأساسى في عملية إنشاء الأنطولوجياء وكذلك على الأساليب المستخدمة في 
رثنت NUMOS‏ ولق ees‏ هرمن Jn,‏ اكرات العلاقات مكونًا رئيسا 
آخرء ونظرًا a8 UM‏ سبق أن شرحنا هذا المكون بشكل مفصل في القسم 6-4( فقد 
اقتصرنا هنا على عرض تلخيص لأهم أنواع العلاقات التي تعد مفيدة لعملية توليد 
الأنطولوجياء LS‏ سلطنا الضوء على BEYI‏ المعجمية النحوية. وني الختام أشرنا إلى 
العديد من العناصر المترابطة في عملية إنشاء الأنطولوجياء ومنها إنشاء الأنطولوجيا 
شبه الآلي» ىا قدمنا بعض الأمثلة على الأدوات المستخدمة عادة في هذا المجال. 
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الفصل السابع 
تحليل المشاعر 
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۱-۷ مقدمة 

من أهم جوانب فهم النص تييز وتصنيف الآراء والمشاعر والعواطف. قد تتفاوت 
هذه المهمة بين تصنيف تقييمات المستخدمين لمنتجات معينة (هل أعجب هذا المنتج 
المستخدم el‏ لا؟ ما خصائص المنتج التي أعجبته/ لم تعجبه؟) وفهم المشاعر والعواطف 
التي تحملها التغريدات» وتتبع الآراء مع مرور الوقت وتمبيز آراء المؤثرين والقادة 
وإعداد الخلاصات بناءً على الآراء. يشرح هذا الفصل المكونات الأساسية لأدوات 
تحليل المشاعر النموذجية» كا يقدم تشكيلة متنوعة من شتى الأساليب التي يمكن 
استخدامهاء ويعطي أمثلة للتطبيقات الموجودة في الواقع العمل في ختلف المجالات» 
ويبرز كيف يمكن إدراج مهمة تحليل المشاعر ضمن تطبيقات أشمل تستخدم لتحليل 
محتوى شبكات التواصل الاجت|اعی. 

تحليل المشاعر (داخل النص) هي عملية تتعلق بتحليل النص من أجل فهم آراء 
الناس. نحن لسنا هنا بصدد تحليل المشاعر داخل الأشكال الأخرى للوسائط كالصور 
الحالات» يعني ذلك فهم ما إذا كان أحد الأشخاص يتحدث بأسلوب إيجابي أو سلبي 
عن شيء ماء لكن بالطبع يمكن أن تأخذ الآراء طابعًا أكثر غموضًاء فقد تعبر عن مختلف 
أنواع العواطف وقد تختلف تلك العواطف في شدتها (هل الشخص معجب بشيء ما 
قليلاً أو does‏ هل هو خائف» مصدوم» غاضب» مرتاح» متفاجئ على نحو iate!‏ 
الخ؟). يمكن أن تعبر العواطف أيضًا عن الشعور تجاه جوانب محددة في منتجات أو 
حدث ماء الأمر الذي يؤدي بصفة عامة إلى وجود قدر من التناقض (كأن تكون معجبًا 

قد تكون أدوات تحليل المشاعر مفيدة للغاية في كل القطاعات الصناعية : ayer‏ .من 
الأمثلة النموذجية على ذلك تقييات المنتجات» فقد يبحث شخص يرغب في شراء 
كاميرا عن التعليقات والتقييمات الموجودة على شبكة الإنترنتء بين قد يرعب شخص 
آخر قام بشراء كاميرا بوضع تعليق على المنتج والحديث عن تجربته؛ ea‏ يمكن لمصنعي 
الكاميرات gue M EM‏ ل ار 
منتجاتهم أو خدماتهم و/ أو تعديل استراتيجيتهم التسويقية. إن محاولة تحليل هذه 
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التقيبيات والآراء يدويًا غالبا ما تكون غير مجدية» ولا سيا بالنسبة للشركات الكبرى 
التي قد تصلها ملايين التقيبعات الخاصة بكل منتج. في حين يوجد في المواقع الرسمية 
لتقييمات المنتتجات أنظمة لحساب التقبييات بواسطة النجوم» إلا أن المعلومات الأهم 
من حيث الفائدة للمستخدم غالبًا ما توجد في النص ال حرء ما يعني أن تجميع الدرجات 
العددية ليس GS‏ لرؤية الصورة الكاملة. أضف إلى ذلك أن التعليقات التى تنشر على 
شبكات التواصل الاجتاعي كتويتر OU‏ ما تتطلب استجابة فورية» ومع NE‏ عدم 
الاعتماد على الأنظمة الآلية بالكامل للتجاوب مع تلك التعليقات» إلا أن أدوات تعدين 
الآراء قد تساعد في الإبلاغ عن المشكلات الخطيرة» أو إبراز الاتجاهات الجديدة. قد 
تستفيد أنظمة الإجابات على الأسئلة أيضًا إلى حد بعيد من مكونات تعدين الآراءء 
وذلك من أجل التعامل مع أسئلة من قبيل ما أفضل مطعم ياباني في لندن؟» أو ما 
شابه. قد يحاول المرء أيضًا الرد على الأسئلة التى تتطلب Cb‏ أكثر تعقيدّاء كسؤال يقول: 
«ما الكاميرا الفضلى من حيث عدر لار 

وني حين يمكن أن تكون ceux‏ وآراء العملاء أهدافًا واضحة لأدوات تعدين 
الآراء» وبالنظر لتركيز جزء كبير من الأبحاث عليها (يعود ذلك جزئيًا إلى وجود حاجة 
واضحة» لكنه أيضًا بسبب سهولة إنشاء أطقم خاصة بالتدريب والاختبار مكونة من 
كميات ضخمة من البيانات باستخدام أنظمة التقييم كمعيار ذهبي)» إلا أن هناك 
العديد من الاستخدامات الأخرى لأدوات تعدين الآراء. من بين المهام المهمة الأخرى 
أمور مثل فهم المشاعر السياسية والاجتماعية تجاه الحكومات والأحداث والانتخابات 
وما إلى ذلك. تقليديّاء كانت تُجرى هذه التحليلات بواسطة استطلاعات الرأي (مثل 
YouGov‏ في المملكة المتحدة)» غير أنها باهظة الثمن وتستهلك الكثير من الوقت. 
يشكل التحليل التنبئي أو التوقعي (predictive analysis)‏ على وجه الخصوص rw‏ 
ضخًاء بداية بمعرفة الأفلام التي ستفوز بجوائز الأوسكار وغيرها من الجوائز (وهو ما 
يؤدي بالتالي إلى زيادة الإيرادات)» مرورًا بالتحقيق في كيفية تأثير المزاج العام على سوق 
الأسهم وعمل التوقعات بناءً على الأحاديث الدائرة على شبكات التواصل الاجتماعي. 
يمكن استخدام التحليلات الاجتاعية أيضًا لشرح الاختلافات المهمة» ليس عبر 
الارتباطات الصريحة (الأشخاص الذين يحبون السفر قد يرغبون في شراء منتجات 
السفر) فحسب» بل أيضًا من خلال الارتباطات الضمنية غير الصريحة de)‏ سبيل 
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المثال: الأشخاص الذين يقومون بشراء منتجات نايك يميلون أيضًا لشراء منتجات 
أبل). 

تقوم أدوات تعدين الآراء بأخذ قطعة من النص كمٌّدخلات» وتعطي مخرجاتٍ على 
شكل معلومات تحدد ما إذا كان النص يتضمن آراء» وما طبيعة الآراء التى يعبر عنها 
Lad s el a bag p (ell... esci‏ اال وجوه lo n‏ أخرى مثل 
الموضوع الذي يتعلق به الرآي» ومن صاحب الرأيء وتعطي نوعًا من أنواع تلخيص 
الآراء بعدة جمل أو تعبيرات. سنناقش هذه المهام الفرعية بمزيد من التفصيل في الفقرة 
كت 

قد تبدو مهمة تعدين الآراء بسيطة للوهلة الأولى» فقد يبحث نظام بسيط وغير معقد 
عن وجود كلمات إيجابية وسلبية (مثل أكره» جيد» سيئ -..الخ) ومن ثم يقوم بتوليد 
الرأي الناتج وفقا لذلك. في المارسة العملية» تكون مهمة تعدين الآراء أكثر تعقيدًا 
من ذلك» حتى في حال مهام كشف قطبية الرأي (polarity detection)‏ (معرفة ما إذا 
كانت عبارة ما إيجابية أو سلبية). يعود السبب في ذلك كا سبق أن رأينا في هذا الكتاب 
إلى كون اللغات الطبيعية شديدة التعقيد والغموض. ينبطق هذا الأمر على وجه التحديد 
على شبكات التواصل الاجتماعي» حيث تتركز مهمة تعدين الآراء. يلجأ الناس إلى 
استخدام مصطلحات غير معتادة في شبكات التواصل الاجتماعي لوصف مشاعرهم» 
ويقومون بإضافة تعبيرات سلبية إلى ما يكتبونه من تعبيرات» ولا يستخدمون قواعد 
النحو والإملاء على النحو الصائب» ويستخدمون العبارات الشرطية وعبارات المشاعر 
كأسئلة» وقد يكونون ساخرين أو متهكمين» وقد يفترضون أن القارئ يملك معرفة 
إضافية بالعالم المحيط به تمكنه من فك شفرة المعنى من دون إعطاء إشارات واضحة 
(على سبيل المثال: تكون الإشارات إلى فولديمورت (Voldemort)‏ أو هتلر (Hitler)‏ 
سلبية بشكل عام). هذا يعني في الغالب ضرورة إجراء تحليل لغوي معقد لفك رموز 
المعنى بصورة صحيحة» كا سنرى في القسم ۲-۷ والقسم Y7V‏ 

dos‏ علينا أن نوضح في هذا القسم ikä‏ تتعلق بالمصطلحات. من الناحية 
النظرية» الآراء والمشاعر أمران مختلفان» ومن ثم فهناك اختلاف بين تعدين الآراء 
وتحليل المشاعر تبعًا لذلك. تعبر المشاعر عادة عن درجة قطبية معينة (إيجابي» سلبي» 
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أو محايد). على سبيل المثال» عبارة «أظن أن فستانك جميل» تحمل مشاعر إيجابية أعبر 
عنها. قد تعبر الآراء عن شيء ما أكثر I ees‏ على سبيل ا مثال» عبارة «أظن Ml‏ ستمطر 
dae‏ هي رأي أعبر عنه Ul‏ بشأن الطقس» لكنها لا تعبر عن مشاعر محددة إيجابية كانت 
أو سلبية. غير أن «الرأي» يمكن أن يستخدم أيضًا ليعني مشاعر إيجابية أو سلبية» وفي 
المثال الأول» أعبر عن رأي إيجابي يتعلق بفستانك. 


في المراحل المبكرة لبحوث تعدين الآراء» استخدم مصطلح «تعدين الآراء» ليعني 
s‏ أكثر شمولاً بكثير مما هو عليه الآن» في حين كان تحليل المشاعر يُستخدم للإشارة 
تحديدًا إلى مهمة كشف قطبية الرأي. غير أنه خلال السنوات الأخيرة بات المصطلحان 
كلاهما يستخدمان بشكل تبادلي» وبالأخص في الحالات التي تم فيها إنشاء مهام فرعية 
ومهام جانبية (على سبيل المثال: كشف ما إذا كان شيء ما يحمل AU‏ لاء وكشف 
وجود المشاعر وإلى أي مدى يمكن الوثوق بالآراء» وما إلى ذلك -راجع الأقسام 
التالية). في هذا الفصلء» نستخدم تعبير «تعدين الآراء» ليشمل مهام تتضمن كشف 
ما إذا كان شيء ما يعبر عن مشاعر معينة» وما هي درجة القطبية في تلك المشاعر» وما 
مدى قوتهاء ومن صاحب الرآي» وباذا يتعلق الرأي» وما طبيعة العواطف التي يجري 
d T cast dace ad‏ يف oss e‏ اث عا دن اق رات مشاعر 
محايدة CS)‏ هو الحال في مثال الطقس) والتمييز بينها وبين تعبيرات الحقائق (مثال: GP‏ 
hë‏ €( 


۲-۷ المشكلات الموجودة في تعدين الآراء 

قد تستخدم منهجية مبسطة لتحليل المشاعر معجًا يضم كلمات تحمل آراء ede)‏ 
سعيد» حزين» ...الخ) وتجميع هذه الكلمات من النص قيد التحليل (كجملة أو تغريدة 
أو مستند) من أجل اتخاذ قرار بشأن درجة القطبية العامة. في حقيقة الأمر» تستخدم 
العديد من المنهتجيات الأساسية هذا الأسلوب بالذات؛ وتحصل عل درجات مقبولة. 
لكن حتى لو أخذنا بعين الاعتبار مشكلات من قبيل النفى («جيد» مقابل «غير جيد»)» 
تبقى هناك العديد من الفروق الدقيقة التي تعيق هذا النوع من التحليل المبسط. على 
سبيل المثال» قد تغير الجمل الشرطية المعنى تغييرًا كبيرًا («إن خسرت أسكتلندا المباراة» 
Le‏ ستكون كارثة)). قد يختلف الرأي LAT‏ وبشكل كبير من حالة إلى أخرى» وذلك 
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Gs‏ لصاحب الرأي والموضوع الذي يتعلق به. تحمل عبارة Op‏ خسارة أسكتلندا 
للمباراة أمر رائعم» ضمنيًا مشاعر إيجابية يعبر عنها كاتبها بشأن نتيجة المباراة» لكنها 
تحمل أيضًا نوعا من المشاعر السلبية تجاه أسكتلندا. على الجانب الآخر» نحن لا نتوقع أن 
تكون أسكتلندا أو المشجعون الأسكتلنديون سعداء ببذه التتيجة. حتى الكلمات البذيئة 
والمصطلحات السلبية يمكن أن تستخدم استخدامًا le]‏ إن توفر السياق الصحيح» 
فالبريطانيون بالتحديد غالبًا ما يشيرون إلى أصدقائهم مستخدمين مصطلحات في 
غاية السلبية دون أن يكونوا سلبيين تجاههم بأي شكل من الأشكال e?‏ سبيل المثال: 
نعث شخص ما بكلمة mucker‏ يعد نوعًا من التحيب» لكن هذه الكلمة تعني حرقيًا 
الشخص الذي يقوم بإزالة النفايات). 

على المرء أيضًا أن يكون حذرًا بخصوص التمييز بين رأي بشأن شخص أو شيء 
ماء وبين حدث يتعلق بذلك اقيض أ e ce et‏ سيبل dag ge eni Ul‏ 
الصدمة لوفاة شخص ما ليس مؤش ماعل كراهية ذلك الشخص» حتى de‏ الرغم من 
كون مضمون الرسالة سلبيًا بصفة عامة» غير أن العديد من أدوات تحليل المشاعر تخطى 
هنا لكونها لا تميز بين الأمرين. 

قد تكون هناك أيضًا صعوبة في التعامل مع السخرية» لكن المحتوى الساخر 
يغلب على محتوى شبكات التواصل الاجتماعي. في البداية» يجب على النظام التعرف 
على السخرية عند وجودهاء وهي مهمة لا تكون سهلة (lo‏ حتى بالنسبة لشخص 
لك معرقة ساف كرى, فا عب غل الا قوم كبقية تائ السدقرية أن الک 
على درجة قطبية الرأي» فقد تقوم بعكس درجة القطبية المتوقعة للعبارة أو الجملة 
بأسرهاء أو لجزء صغير منها cla‏ أو حتى عدة حمل [184]. وني حين قد تبدو القدرة 
على كشف السخرية هدفا ثانويًاء إلا أن الآثار المترتبة عليها مهمة للغاية» ففي عام 
4م أعلنت المخابرات الأمريكية عن وجود خطط لديا لشراء برمجيات للمراقبة 
الآنية لمستخدمي شبكات التواصل الاجتماعي. وهي خطط تتضمن تحديدًا القدرة على 
كشف السخرية. 


1- http;//www.emotion-research.net 
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Y-V‏ مهام تعدين الآراء الفرعية 

يتضح من النقاش السابق أن هناك عددًا من المشكلات في مهام تعدين الآراء 
ينبغي معالجتها من قبل الأدوات التي تقوم ode‏ المهمة T‏ يمكن تقسيم هذه المهام 
إلى مجموعة من المهام الفرعية الاختيارية التي يمكن للأدوات استخدامها. سنعطي فيا 
يلي وصمًا موجرًا هذه الأدوات والأساليب التي يمكن استخدامها. 


١-۳-۷‏ كشف القطبية 

كشف القطبية (polarity detection)‏ هى مهمة تتعلق بتحديد ما إذا كانت عبارة 
edat‏ أو tbe OP‏ ف يعض ler‏ نه تكو عام ا سير cl‏ ا ف 
الآراء (هل تحمل هذه العبارة رأيًا؟)» حيث يشير الحياد إلى أن العبارة لا تحمل رأيّاء 
بينما يشير التصنيفان الآخران إلى أن العبارة تحمل رأيًا. تقوم الأنظمة الأخرى أولاً 
بتصنيف العبارات إلى مهام فرعية. يمكن تقييم هذه المهام أيضًا كمهمة واحدة أو 
مهمتين منفصلتين. تقوم الأنظمة الأخرى Yal‏ بتصنيف العبارات إلى عبارات تحمل 
آراء وعبارات لا تحمل أي آراء» ومن ثم تقوم بتصنيف العبارات التي تحمل آراء مرة 
أخرى في مهمة فرعية منفصلة. يمكن تنفيذها كمهمة واحدة أو كمهمتين منفصلتين. 
بعض الأنظمة تيز بين الحياد وعدم وجود مشاعر» وغالبًا ما يكون الأمر كذلك عند 
استخدام النظام في المستندات الطويلة. تكون هذه المستندات عادة محايدة بسبب وجود 
عدد متساو من العناصر الإيجابية والسلبية. من الأمثلة على ذلك موقع تقييمات يوجد 
فيه تقييم بدرجة 5/ 3 نجوم» حيث يمكن اعتبار هذه الدرجة إيجابية وسلبية بصورة 
متساوية» وذلك لوجود بعض النقاط الجيدة والسيئة المتعلقة بالمنتج. بدلاً من ذلك 
تستخدم المشاعر المحايدة في بعض الأحيان لوصف ال حالات التي يعبر فيها الكاتب 
بوضوح عن بعض المشاعر» لكن لا يتضح فيها ما طبيعة المشاعر تحديدًا. في تلك 
الحالات» يختلف عدم وجود مشاعر عن حياد المشاعر. غير أن الآدوات اليدوية والآلية 
المستخدمة لإضافة التعليقات والشروحات تجد صعوبات كبيرة في التمييز بين الحالتين» 
ولا سيّما في المستندات القصيرة» ولذا يتم الجمع بين الحالتين دون أي تمبيز. 
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۲-۳-۷ كشف هدف الرأي 

غالبا ما تكون معرفة كون الرأي ÉE‏ أو سلب أمرًا غير aS‏ مالم نعرف أيضًا 
بالتحديد الموضوع الذي يكون الرأي te]‏ أو GL‏ بشأنه. كا ناقشنا سابقاء محبة 
شخص ما تختلف اختلافا كبيرًا عن محبة موته. وبالمثل قد يكون الإعجاب بسمة 
من سات شخص أو شيء ما (شعر الشخصء لون سيارته» ...الخ) مختلمًا كثيرًا عن 
الإعجاب بالشخص أو الشيء ككل. تتعلق مهمة كشف المهدف (target detection)‏ 
بتمييز الأمر الذي يتعلق به الرأي» وتتبع منهجيتين رئيستين في هذا الصدد. تعمل 
المنهجية الأولى وفق مفهوم من الأعلى إلى الأسفل (top-down)‏ وتُستخدم عندما 
يكون isle s ala Bas Sabl‏ ما يكون الهمدف سمة أو خاصية من خصائص شيء 

ما توجد في إحدى الأنطولوجيات أو غيرها من أنظمة التصنيف (على سبيل المثال: 
الفنادق لديا خصائص مثل الغرف وخدمة الطعام والموقع؛ والكاميرات لديها سعر 
وحجم وعمر بطارية وما إلى ذلك). سنورد شرح تعدين الآراء المستند إلى الخصائص 
بواسطة الأنطولوجيات في القسم 6 -7 اليج كار حي مو ضر وا مهرم من 
الأسفل إلى ((bottom- up) Ae‏ حيث تكون الأهداف المحتملة غير معروفة cala‏ 
لكنها تؤخذ من النص بشكل آلي. في العادة تتألف هذه المنهجيات من مصطلحات 
أو كيانات أو أحداث سبق تحديدها في مرحلة سابقة من del‏ عملية معالحة 
اللغات الطبيعية. لكن تظل مهمة ربط الرأي بالكيان الصحيح تحديًا يتطلب مزيدا 
من الدراسات حوله» ومجرد استخدام المنهجيات المستندة إلى المسافات غير كاف إلى 
حد بعيد» والأنسب اتباع منهجية بدوافع لغوية من أجل الحصول على أفضل النتائج 
(أي استخدام التحليل النحوي أو على الأقل تجزئة النص لضان BUH‏ على العلاقة 
الصحيحة بين الكلمات التي تحمل آراء والهدف المطلوب). لكن تبقى هذه المهمة غير 
e‏ ويعود سبب ذلك Cs p‏ إلى الأخطاء التي تقع في مهمة التحليل النحوي (ولا 
سيا في نصوص شبكات التواصل الاجتماعي)» وجزئيا بسبب تعقيد التركيبات. توجد 
أمثلة على المنهجيات المستندة إلى الكيانات في [185] وفي [186]. كما توجد أمثلة على 
المنهجيات ذات الأهداف المحددة سلقاء والتي تُعرف أيضًا باسم كشف المواقف 
«(stance detection)‏ 3( ]187[ 5 188],3[ 
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۳-۳-۷ کشف صاحب الرأي 

(e‏ هو JLH‏ مع مهمة كشف هدف الرأي» تتعلق مهمة كشف صاحب الرآي 
Copinion holder detection)‏ بالتعرف على الشخص الذي يحمل الرأي المشار إليه. 
قد يكون الأمر بسيطًا في العديد من الحالات» على سبيل المثال في آراء العملاء التي عادة 
ما يكون صاحب الرأي هو الشخص الذي يكتب التقييم ا 
يكون بالبساطة نفسها في حالات أخرى («الكتاب أعجب صديقي» لكنني أجده ملا 
للخاية»). في الحالات التي لا يكون كاتب النص صاحب الرأي» يكون الأمر متعلقا 
بحالات الكلام المنقول (يستخدم على نحو فضفاض للإشارة إلى أفعال من قبيل 
التفكير» الشعور-...الخ). يمكن التعرف على هذه الأنواع من التراكيب باستخدام 
تحليل لغوي ذي جودة عالية قادر على التعرف على أسماء أو أنواع أصحاب الآراء 
المحتملين (عادة ما يكونون أشخاصًا أو مؤسسات) والتصنيفات الدلالية للأفعال 
(تفكير» شعورء قول» ...الخ) والأناط الدلالية لنموذج مثل صاحب-رأي-فعل- 
ر أي UL (opinion — opinion verb-holder)‏ الأخر ى هي المثال المبين أعلاه 
(«الكتاب أعجب صديقي») حيث يتعين تييز فاعل الفعل الذي يحمل الرأي وتصنيفه 
على أنه صاحب الرأي. في التغريدات» قد يكون صاحب الرأي أيضًا كاتب تغريدة 
أصلية جرت إعادة تغريدها. هناء ينبغى الحذر في تحديد ما إذا كان المرء يرغب في 
التعرف على الكاتب الأصلي للتغريدة أو الشخص الذي قام بإعادة نشرهاء أو كليهماء 
وتصنيفه على أساس أنه صاحب الرأي. لاحظ أن الأخير أمر مثير للجدل إلى حد ماء 
ولا سیا عد يرغب المرء في إبراز عبارة مثيرة للجدل. وكا هو ا حال مع كشف هدف 
الرأي» s‏ مهمة كشف الكيان Centity detection)‏ خطوة أولى مهمة في عملية ييز 
الكاتب» على الرغم من أنه قد يكون من الضروري تحديد العبارات الاسمية المتعلقة 
بالأشخاص والمؤسسات» مثل «صديقي». 


٤-۳-۷‏ تجميع المشاعر 

يمكن تحديد المشاعر بعدة مستويات» وعادة ما يكون ذلك على مستوى الحملة/ 
العبارة أو على مستوى المستند/ المشاركة. عادة ما تتكون التغريدات من جملة واحدة 
ومن ثم يجري التعامل معها على أنها تندرج تحت الفئة الأولى» لكنها في بعض الأحيان 
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تتكون من عدة جمل. وبالتالي» يجري التعرف على الرأي عادة على مستوى التغريدة» 
لكن باستخدام منهجيات على مستوى الجملة» وذلك بسبب تعبير كل تغريدة عن 
رأي واحد في العادة. في الغالب تبدأ عملية تحليل المشاعر التى تطبق على المقالات أو 
المشاركات الأطول (مثل تقييمات الأفلام) بتعدين الآراء على مستوى الجملة» والعمل 
على ساس جملة أو تعبير واحد وتقسيم التقييم أو المقال إلى عدد من الآراء المختلفة على 
الأرجح حول الخصائص المختلفة لدف الرأي (على سبيل المثال: «كان الطعام شهيّاء 
لكن الخدمة كانت بطيئة للغاية»). GU‏ نقاش مفهوم تعدين الآراء وفقا للخصائص 
بمزيد من التفصيل في القسم CV‏ ويلاحظ هذا المفهوم عادة في تحليل مواقع تقييم 
المنتجات. 

هناك منهجيتان رئيستان لتجميع المشاعر. تتمثل المنهجية الأولى» وهي الأكثر 
de uh‏ في ا جمع بين جميع الدرجات الإيجابية والسلبية لكل ila‏ أو عبارة» وتقديم 
درجة موحدة إجمالية» وهو ما يؤمل أن يتوافق مع التصنيف النجمي» إن وجد. في 
الواقع» تستخدم التصنيفات النجمية كبيانات تدريبية لمثل هذه الأنظمة» على الرغم 
من أن ذلك قد يطرح إشكالية بسبب عدم كون الدرجة الموحدة الإجالية والتصنيف 
النجمي متوافقين (Glo‏ (قد يقوم المرء بإعطاء تقييم ذي ٤‏ نجوم» ومن ثم استخدام 
النص الحر فقط لشرح النقاط السلبية). بالنسبة للمستندات مثل المقالات والمدونات» 
أو cole sas‏ التعليقات» ليست هناك Glo‏ علاقة مباشرة بين النقاط الإيجابية والسلبية 
المجمّعة. تقول بعض النظريات: إن المشاعر المحايدة تحمل في الواقع قيمة إيجابية تزيد 
قليلاً عن الحالات التي تكون فيها المشاعر غائبة» ولذا تجري موازنة هذه الأمور oige‏ 
الطريقة. وعلى نحو ممائل» تميل المشاعر السلبية عادة للتفوق على المشاعر الإيحابية 
(يميل الناس لنشر آرائهم عندما لا يكونون سعداء بشأن أمر ما). هناك طريقة ثانية أقل 
شيوعا للحصول عل درجة موحدة للمشاعر عنتما يتعلق الأمر بالمستندات الطويلة؛ 
وهي طريقة الجمع بمرور الوقت (0011601-35-3/00-80)» حيث يجري البحث 
داخل المستند كلمة بكلمة وتحديث الدرجة تبعًا لذلك. يعرف هذا الأسلوب بالتحليل 
الجماعي (بدلاً من التحليل التجميعي) [185]. 
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o-Y- V‏ المكونات اللغوية الفرعية الإضافية 

لمعالحة بعض المشكلات المتبقية التى ورد ذكرها سابقاء قد تستفيد أدوات تعدين 
الآراء من عدد من المكونات اللغوية ALAS ie a‏ التحليل النحوي» أو على الأقل 
تجزتة النص» هما مكونان مفيدان في تجزئة الجمل إلى أجزاء صغيرة» وذلك من أجل إيجاد 
العلاقات الصحيحة بين المكونات مثل الآراء والأهداف وأصحاب الآراء. الأسلوب 
الأبسط للقيام بذلك هو تجزئة الوحدات وفقا لعلامات الترقيم وكلمات التنسيق» على 
الرغم من أنها عملية ليست محمية ضد الفشل بأي حال من الأحوال. يعطي التحليل 
النحوي نتائج أفضل لأنه يتيح استخراج علاقات التبعية الصحيحة (راجع الفصل 
الثاني)» لكنه غالبًا ما يطرح إشكالية من حيث الأداء في نصوص شبكات التواصل 
الاجتماعي وبالأخص التغريدات» وذلك بسبب غياب الاستخدام الصحيح للقواعد 
النحوية في النص. 

من المفيد القدرة على التعرف على المياكل اللغوية كالأسئلة والعبارات الشرطية» 
وذلك LN‏ قدت توثرق الت الذى يتضمن UL‏ إل سحل Aen‏ . وفي حين قد تحمل الأسئلة 
مشاعر (ضمنية في العادة)» إلا أن هذا الأمر غير معتاد إلى حد ما. عند طرح سؤال 
«هل تعتقد أن هذا الفستان جميل؟)» فهذا لا يعني في العادة وجود مشاعر إيجابية أو 
سلبية لدى السائل. وبالمثل» يعبر السؤالان «لو كان هذا الفستان أزرق اللون لكان 
Gua‏ والو كنت أرغب في D adl‏ على فستان رخيض» لکنت اشتريت فستاتًا (s‏ 
كلاهما يعبر عن مشاعر مركبة» لذا ينبغي إيلاء عناية خاصة هنا. في الواقع» بإمكان 
المرء أن يذهب أبعد من ذلك ويتعرف على قواعد محددة تتعلق بالمشاعر بناءً على نوع 
العبارة الشرطية: تطبق هذه edel gäll‏ على سبيل ال مخال» في أنظمة GATE‏ من أجل تحليل 
المشاعر ]190[» حيث تكون عملية إضافة مثل هذه المكونات الإضافية سهلة للغاية. 

تشكل العبارات البذيئة حالة خاصة؛ ولذلك يجب أن نوليها اهتماما خاصا لأن 
بعضها قد يبدو أنه تعبير سلبي ولكن ليس الأمر كذلك في سياق الكلام. تندرج 
العبارات البذئية في العادة في معاجم usd o LUI inm‏ الناس Y‏ يرن 
العبارات البذيئة بطريقة سلبية lo‏ في حقيقة حقيقة الأمر» تستخدم هذه العبارات عمومًا 
كنوع من أدوات تعزيز المشاعر» ولا os‏ عندما ترد في النص (modifiers) co Y3a4s‏ 
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لصفات أو أسماء إيجابية أو سلبية -على سبيل المثال: (bloody awful‏ (سىء جدا) 
مقابل «bloody good»‏ (جميل جدا) -. l‏ 

كا ذكرنا سابقاء بعد كشف السخرية مجالا T‏ من المجالات التى يتبغى إيلاؤها 
عناية خاصة. من الناحية التقليدية» كانت أنظمة الآراء تتجاهل id‏ والتهكم نظرًا 
لصعوبة التعرف Celo‏ بصورة آلية» إلا Gel‏ كانا في الآونة الأخيرة موضوع بحوث 
متزايدة [184 ,191]. تشمل المنهجيات المستخدمة عادة تدريب أدوات التصنيف 
على التغريدات التي تضم علامات تصنيف (هاشتاغ) من قبيل -سخرية و-ساخر» 
والتغريدات التي لا تشمل مثل هذه العلامات [192].جرى تحقيق نجاح معتبر مع 
مثل هذه الأساليب من حيث التعرف على ما إذا كانت التغريدة ساخرة أم لاء لكنّ 
قدرًا يسيرًا من الأبحاث تناول المشكلة المتعلقة بكيفية تأثير السخرية على القطبية 
نفسهاء وذلك ON‏ هذا الأمر ليس بسيطًا (راجع [184] للاطلاع على نقاش حول هذه 
المشكلة). 


£-V‏ كشف العواطف 

أدوات تعدين الآراء المستخدمة للمهام العملية تبتعد على نحو متزايد عن الأدوات 
العادية المستخدمة لكشف المشاعر الإيجابية/ السلبية وتسير نحو اتباع منهجية قائمة على 
العواطف» حيث تصتف هذه المنهجية النصوص التي تحمل الآراء وفقا للعواطف التي 
و cle‏ ويمكن UII‏ عل مثال لذلك في 11991 بعر د السيب d uad PH‏ ذلك إلى 
أنه يعد الخيار الأجدى للأغراض العملية. على سبيل المثال» تفضل الشركات عمومًا 
أن تعرف بالتحديد ما إذا كان الناس يشعرون بالخوف أو الغضب تجاه منتج معين» 
بدلا من جرد شعورهم بمشاعر سلبية تجاهها. هناك مسار بحثي آخر تناول التلازم بين 
العواطف (ولا سيا الخوف) والتغييرات في أسعار أسواق الأسهم [194]. قد تحتوي 
العواطف على قيّم دقيقة p (fine-grained)‏ على شكل مفاهيم من أنطولوجيات 
ذات تعريف Aum‏ 

غير أن مهمة تحديد مجموعة كاملة وواضحة من العواطف هي مهمة صعبة. جرت 
عدة محاولات لتحديد عدد من المعايير (راجع» على سبيل Jil‏ ]195[ و/ / http:‏ 
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(www.emotion-research.net‏ لکن لا يوجد حتى الآن إجماع على مجموعة 
أساسية من العواطف. من التمثيلات التي يشيع اقتباسها عجلة بلوتشيك للعواطف 
المبينة في الشكل رقم .١-۷‏ تعد هذه العجلة محاولة لإظهار كيفية ارتباط العواطف 
المختلف بعضها ببعض» لكن ربا تبدو معقدة جذا لدرجة تجعلها غير مناسبة لتمثيل 
عملية تمييز العواطف. تُظهر العجلة ثمانية عواطف أساسية ثنائية القطب كا هو مبين في 
الدائرة التي تأتي في المرتبة الثانية من حيث العمق» وهي الفرح مقابل الحزن» والغضب 
مقابل الخوف» والثقة مقابل الاشمئزازء والمفاجأة مقابل الترقب. تتمثل الفكرة 
التالية بعد ذلك في أنه مثلم هو الحال مع الألوان» يمكن التعبير عن المشاعر الأساسية 
بدرجات متفاوتة في شدتهاء كا يمكن المزج بينها لتشكيل عواطف أخرى. عل ستيل 
المثال» المزج بين الترقب والفرح يعطيك التفاؤل» ونقيض ذلك هو الاستنكار. تعد 
المشاعر الموجودة على طرفي النقيض مصدر القلق الأكبر» حيث يتوقع المرء أن يكون 
التشاؤم نقيض التفاؤل على سبيل المثال. وبالمثل» تصنف العجلة الغضب على أنه 
نقيض مفهوم الخوف الأساسي» كا تصنف الثقة كنقيض للاشمئزاز. حتى لو أخذنا 
هذه الفئات كنقطة بداية من دون الأخذ بعين الاعتبار التفاعل فيا بينهاء هناك عدد من 
الفئات المتوقعة التي لا توجد في العجلةء إلا أن العواطف الأساسية الثاني تستخدم 
al EM a S‏ التصتيف JI‏ 

تستخدم قائمة مشاعر باروت المهيكلة على شكل شجرة ]1196 التي شرحها ]197[ 
للمرة الأولى» الفئات الأساسية التي طرحها بلوتشيك» لكنها تزيد عددًا بصورة مختلفة. 
تستخدم القائمة ثلاثة مستويات» ويظهر أول مستويين في الجدول رقم A-V‏ 

هناك تمثيل آخر يسمى EARL‏ (لغة تمثيل شروحات العواطف)» وقد جرى 
تطويرها خصيصًا لإضافة الشروحات والتعليقات إلى العواطف من قبل شبكة التفاعل 
بين الإنسان والآلة حول العواطف (HUMAINE?)‏ وتصنف EA‏ نوعا من أنواع 
العواطف» LS‏ هو مبيّن في الجدول رقم ۲-۷ والجدول رقم =V‏ 

من النقاط المهمة التي ينبغي وضعها بعين الاعتبار هو أنه وخلافا لقطبيات الآراء 
العمومية (إيجابي/ سلبي)» لا تكون نقائض العواطف بالضرورة سلبيات العواطف. 


1- http://linguistic-lod.org/ 


-Ne- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


على سبيل المثال» على الرغم من أن السعادة والحزن يعتبران في العادة شعورين 
متناقضين» وفي حين يمكن G pas‏ إعادة صياغة العبارة LD‏ لست سعيدًا» لتصبح UP‏ 
حزين)» لكن على الجانب الآخر لا تحمل عبارة Ub‏ لست حزينًا» المعنى نفسه الذي 
تحمله عبارة LD‏ سعيد) etie diti ie qe‏ هذا ايوم بشكل qus‏ 
العواطف الإيجابية يكون سلا في العادة» لكن نفي العواطف السلبية قد يكون محايدًا 
في كثير من الأحيان بدلاً من أن يكون tel‏ . هذا يعني أن الأسلوب المعتاد المتمثل في 
قلت ose o‏ الفط عند daas‏ الاي الاي لسن بالق ور بها lae:‏ 
يتعلق الأمر بتمييز العواطف. وكا يبدو Op‏ هذا الأمر لم يتم تناوله ضمن أدبيات 
البحث. 


الشكل رقم V-V‏ : عجلة بلوتشيك للعو اطف (الرسم ١> Machine EIF‏ . مر خص بمو جب 
الملكية العامة المشاعة). 
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الجدول :Y-V‏ تصنيف باروت للعواطف 


| العواطف الرئيسة العواطف الثانوية 
الحب الحنان 

الشهوة/ الرغبة الجنسية 
التوق 

p c 

التلذذ 

Ld 

E 

التفاؤل 

الافتتان 

ارتياح 


المفاجأة المفاجأة 
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٥-۷‏ أساليب تعدين الآراء 

مع کون تعدين الآراء ميدانًا جديدًا من ميادين البحثء إلا أن الكثير من الأبحاث 
قد جرت خلال العقد الماضى (وما بعده) حول أساليب تحديد الآراء وتصنيفها. توجد 
فراجعة شاملة ومفصّلة للأساليب التقليذية لكشف الشاعر آلا فى ]198 وها 
العديد من المكونات الفرعية. بصفة عامة» يمكن تقسيم تلك الأساليب إلى أساليب 
مبنية على المعاجم وأساليب مبنية على التعلم الآلي. تعتمد الأساليب المبنية على المعاجم 
على معجم مشاعر» وهو عبارة عن مجموعة من مصطلحات المشاعر المعروفة والمجمعة 
سلفًا. تستخدم منهيجات التعلم الآلي الخصائص النحوية و/ أو اللغوية» فيا يشيع 
كثيرًا استخدام منهجيات هجينة» حيث تلعب معاجم المشاعر دورًا مهنا في غالبية هذه 
الأساليب. حتى الأساليب البسيطة يمكن أن تكون فعالة للغاية» ومن الأمثلة على ذلك 
تحديد قطبية تقييهات المنتجات عبر تحديد قطبية النعوت التى تظهر فيها (تفيد التقارير 
أن هذه المنهجية حققت 332 أكبر من أساليب التعلم الآلي ٠ ET‏ ]199[(. 
لكن مثل هذه الأساليب الناجحة نسبيًا غالبا ما تفشل عند نقلها إلى نطاقات أو أنواع 
نصوص جديدة» وذلك بسبب كونها غير مرنة بخصوص غموض مصطلحات 
المشاعر. يمكن أن يتغير المعنى الذي يحمله السياق الذي يُستخدم فيه المصطلح» ولا 
سيا النعوت الموجودة في معاجم المشاعر [200]. على سبيل المثال» تعد السيارة الهادئة 
من الممتلكات الإيجابية» لكن الأمر ليس كذلك عمومًا بالنسبة لمنبه هادئ. إضافة إلى 
ذلك» برهنت عدة تقيييات مدى أهمية المعلومات السياقية ]201[ ]202[ وحددت 
الكلمات السياقية ذات التأثير الأعلى على قطبية المصطلحات الغامضة [203]. هناك 
صعوبة أخرى تتمثل في عملية إنشاء قواميس المشاعر المستهلكة للوقت» على الرغم من 
طرح عدد من الحلول مثل أساليب التعهيد الجماعي .(crowdsourcing)‏ 
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الجدول ۲-۷: تمثيل EARL‏ للعواطف السلبية 


قوي الغضب لامبالي الملل أفكار شك 
الانزعاج اليأس سلينة الحسد 
الازدراء خيبة الأمل الإحباط 
الاشمتزاز اجرح الشعور بالذنب 
التهيج o‏ عار 
فقدان الهم cel‏ الإجهاد 
السيطرة الإحراج صدمة 
ag‏ التوتر 
العجز 
الضعف 
القلق 
الجدول /ا-": تمثيل EARL‏ للعواطف الإيجابية 
حيوي لتسلية مهتم المودة أفكارايجابية | لشجاعة 
لبهجة التعاطف الأمل 
الانتشاء الصداقة لفخر 
الإثارة ا لحب الرضا 
السعادة لثقة 
f " c»‏ 
m‏ هادئ لسكون تفاعلي الاهتمام 
إيجابي doy‏ الكياسة 
الاسترخاء اللفاجأة 
الارتياح 
لصفا 


في الآونة الأخيرة» بدأت أساليب تعدين الآراء تركز على شبكات التواصل 
الاجتماعيء إلى جانب بروز توجه جديد نحو تطبيق هذه الأساليب على نحو استباقي 
بدلا من تطبيقها كآليات GG‏ كرد فعل. قد تكون لفهم طبيعة الرأي العام بهذه الطريقة 
آثار على توقع الأحداث المستقبلية بالنسبة للحكومات ووسائل الإعلام الراغبة في 
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معرفة ردود الأفعال التي ستحدث نتيجة للأحداث والسياسات» وكذلك بالنسبة 
للأشخاص الراغبين في توقع أداء أسواق الأسهم وأمور أخرى كثيرة. غير أن تكييف 
هذه الأدوات لتتعامل مع شبكات التواصل الاجتماعي بعيدٌ كل البعد عن أن يكون 
مهمة يسيرة في أغلب الأحيان» كما سنشرح في الفصل الثامن. على وجه الخصوص» 
لا تعمل مكونات المعالجة اللغوية المسبقة في وسائل التواصل الاجتماعى في الغالب 
بشكل جيده بالإضافة إلى أن الرسائل القصيرة المتباذلة على تويتر تفتقر إلى معلومات 
سياقية مفيدة» CS‏ يوجد فيها العديد من الأخطاء الإملائية» وهو ما يعنى أن كلمات 
La aa sel eli‏ عاق she‏ عن esta aS‏ انشكدام اللغة CU call‏ ما 
تكون الرسائل غامضة (يكون ذلك مقصودًا في بعض الأحيان). 

تستخدم الغالبية العظمى من أساليب تعدين الآراء أسلوب التعلم الآلي» ويعود 
ذلك Ure‏ إلى سرعة إعداده وسهولته» وأيضًا بسبب النتائج المعقولة التي يمكن 
الحصول عليها بأقل قدر من الجهد. تكون المنهجيات الخاضعة للإشراف مفيدة 
بصفة خاصة عندما تتوفر كميات ضخمة من بيانات التدريب» مثل آراء المستخدمين 
التي تجمع بين نظام تقييم صريح ونص حر. غير أن مثل هذه المنهجيات لا تتكيف 
بصورة جيدة مع التغريدات وغيرها من أشكال محتوى شبكات التواصل الاجتماعي 
]204[ ولا سيا المحتوى الذي يكون خاصًا بنطاق معين. في الحالات الخاصة» يمكن 
إنشاء بيانات التدريب باستخدام علامات التصنيف GAUN‏ أو رموز الانفعالات 
eCemoticons)‏ لكنها غالبًا ما تشكل جزءًا صغيرًا من البيانات ذات الصلة؛ نظرًا OX‏ 
معظم الأشخاص لا يستخدمون هذه الرموز في تغريداتهم. لهذا السبب» ركز قسم من 
الأبحاث على تكييف أساليب التعلم الآلي مع النطاقات الجديدة ]205[ لكن هذه 
الأبحاث تركز في العادة على استخدام كلمات مفتاحية (keywords)‏ مختلفة مع أنواع 
نصوص Re UI‏ على سبيل المثال» تقييات المنتجات المتعلقة بالكتب مقابل eum‏ 
الأجهزة الإلكترونية. عندما يتعلق الأمر بمهام تعدين الآراء الهادفة» خصوصًا في 
التطبيقات الصناعية بدلاً من الأبحاث التخمينية» يُفضل عادة استخدام قاعدة معرفة 
Le‏ تتيح للمطورين تخصيص أداة تعدين الآراء لتتلاءم مع المهمة» ومن الأمثلة على 
ذلك التركيز بشكل خاص على أهداف وأنواع الآراء» بدلا من مجرد السعي للعثور على 
تغريدات أو تصنيفات عواطف إيجابية وسلبية ذات طابع عام. 
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تستخدم منهجيات تعدين الآراء المستندة إلى المعرفة في العادة مهام المعالجة اللغوية 
المسبقة» كا سبق am‏ في الفصل الثاني» بالإضافة إلى قواميس جغرافية (معاجم 
كيانات أسماء (gazetteers‏ تضم معاجم المشاعر» بالإضافة إلى بعض القواعد التي 
تحكم طريقة exl.‏ بين درجات المشاعر (sentiment scores)‏ وغيرها من المخصائص 
اللغوية (كالارتباط بالكيانات لغرض تييز الأهداف» وتعديل الدرجات عند العثور 
على كلمات سلبية أو ضهائر أو ما شابه» وكذلك التبعيات السياقية وما إلى ذلك). وبالتالي 
يكون تعديل هذه الأساليب شديد السهولة على المستخدم عند العثور على أخطاء» على 
سبيل المثال في حال اكتشاف عدم وجود cus‏ أو عبارات مشاعر داخل المعجم» أو 
عند استخدام كلمات المشاعر بطريقة معينة» أو عند استخدام تعبيرات لغوية معينة» وما 
إلى ذلك. توجد أمثلة على أدوات تعدين الآراء المعتمدة على المعرفة المستخدمة في العادة 
في أدوات .SO-CAL [207] VADER [206] ; *GATE , fs‏ 


٩-۷‏ تعدين الآراء والأنطولوجيات 

تحليل المشاعر على مستوى المفهوم مصطلحٌ يستخدم ale‏ للإشارة إلى المنهجيات 
التي تتجاوز التحليل على مستوى الكلمات» وتركز بدلاً من ذلك على التحليل الدلالي 
بناءَ على الأنطولوجيات أو البيانات المترابطة أو غيرها من المصادر الدلالية. نعنى هنا 
بالتحليل الدلالي أن هذه المنهجيات daz‏ عن الاستخدام التقليدي والصريح العا 
ومعلومات التوارد المشترك (co-occurance)‏ لتنتقل إلى منهجية جديدة تعتمد على 
الخصائص الضمنية المرتبطة بمفاهيم اللغات الطبيعية [208]. على سبيل ال مثال» تعد 
أداة SentiWordNet‏ مصدرًا معتمدًا على أداة WordNet‏ التى تضيف معلومات 
Xa al colas) etti‏ رال وا (o pd‏ لكل cole a£ cya bps‏ 
المترادفات (synset)‏ في نظام WordNet‏ . هذا السہب» تتيح عملية ربط كلمات المشاعر 
التي يُعثر عليها في النص بنظام SentiWordNet‏ العثور بسهولة على المترادفات 
والأشكال المختلفة للكلات. جرى تصميم تحديات التحليل الدلالي على مستوى 
المفهوم (CLSA)‏ في عامي 2014 و2015 بالذات لتشجيع تطوير تقنيات تعدين الآراء 
الدلالي» وتظهر عددًا من الأمثلة الممتازة ]208 209( ومن المقرر استمرار سلسلة 
المؤتمرات حتى عام 2016. 
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يوجد مثال على هذه الأنظمة في ]210[ ويقوم هذا النظام بنمذجة نطاق eil‏ 
الإلكترونية باستخدام أنطولوجيا معبأة بحالات (instances)‏ مأخوذة من قاعدة 
المعرفة -DBpedia‏ جرى توسيع الحالات instances)‏ المأخوذة من مجموعة البيانات 
المعجمية في قاعدة المعرفة ]211[ DBpedia‏ باستخدام الأطر السياقية contextual)‏ 
T (frames‏ استخدام مجموع الكلات المحيطة بمصطلح معين للعثور على مصطلحات 
جديدة ذات صلة كا سبق شرحه في الفصل السادس). معاجم المشاعر وثلاثيات 
المفاهيم (concept triples)‏ المرتبطة مها مشمولة أيضًا (مثال: مشر وب» ooo‏ إيجابية). 
تقوم الأنظمة الأخرى مثل ]1212 بترميز المصطلحات ذات الصلة بمفهوم معين 
لمر EOL ud i c co QU‏ 
طريق إضافة كليات مرادفة وكلمات مندرجة (hyponyms)‏ د يعثر عليها داخل النص. 
على سبيل المثال: -تكبير» عمر البطارية» تأخير غالق الكاميراء الخ- هي مجموعة تضم 
الخصائص التي ; اك na D EE Mrd c‏ 
uS‏ هذا الأمر Qu.‏ باسم تعدين الآراء المعتمد على الخصائص. يعد الشكل رقم 
7-2 مثالا آخر على أنطولوجيا مكونة من الخصائص في نطاق الكاميرات. نلاحظ أن 
غالبية هذه المنهجيات مصمم للتعامل مع النطاقات المغلقة كتقيبهات المنتجات» حيث 
يمكن نمذجة المتتجات وخصائصها بسهولة. تزداد صعوبة استخدام هذا النوع من 
المنهجيات بصورة كبيرة عند تطبيقها على تعدين الآراء في النطاقات المفتوحة التى تكون 
فيها ie pat‏ أهداف الآراء الممكنة غير معروفة. l‏ 


camera + camera ~ 


design and usability image quality 


design and usability © «c» design and usability = image quality 0 2-8 quality- lens  lens- 


weight + weight- ^ interface + (men) (buon) interface - noise + noise- resolution + resolution - 


menu + menu - button E button - 


الشكل ۲-۷: قسم من أنطولوجيا خصائص cel II‏ مقتبسة من عرض تقديمي بعنوان «استرجاع 
المعلومات: البحث عن الآراء فى -Opinion Retrieval: Looking for Opinions in the Wild- «à, 4JI‏ 


الدكتور جيورجوس بالتوغلو. 
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لكن من بين التحديات المعيقة لتطوير مثل هذه الأدوات الحاجة للدمج بين 
المصادر اللغوية الموجودة حاليًا المستخدمة لتحليل المشاعر والمصادر الدلالية. تعد 
مبادرة البيانات المفتوحة المترابطة اللغوية Linguistic Linked Open Data Cloud)‏ 
C(LLOD)‏ السحابية مثالا عل البادرات الى دف إل توف موارد لغوية شيهة 
بالبيانات المفتوحة المترابطة السحابية "(Linked Open Data Cloud (LLOD))‏ 
وذلك باستخدام مفردات من قبيل NIF ; lemong OWL‏ للتعبير عنهاء غير أن مهمة 
تحويل الموارد القديمة إلى هذا النظام ودمجها به ليست مهمة سهلة بأي حال من الأحوال. 
893a‏ 8ه هه 
e‏ 
e‏ 
e‏ © 


and provided عضب‎ Pu -— QWoS 
Cee Commons Aibuciam 20 Ungorte (CC BY 20 cene — س‎ 


الشكل ۳-۷: سحابة البيانات المفتوحة المترابطة اللغوية» اعتبارًا من شهر يناير ۲٠٠٠‏ (جرى 
توليدها OT‏ من البيانات الموجودة في منصة Linghub‏ وتقوم بصياناتها مجموعة العمل المعنية 
باللغويات التابعة لمؤسسة المعرفة المفتوحة KOKEN Working Group on Linguistics)‏ 


1- http://lemon-model.net/ 
2- http://persistence.uni-leipzig.org/nlp2rdf/ 
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۷-۷ أدوات تعدين الآراء 

من بين أدوات تعدين الآراء الأكثر شعبية المستخدمة من قبل الباحثين وفي بعض 
التطبيقات الصناعية أداة Sentistrength‏ ]214[ ويعود سبب ذلك بصورة رئيسة إلى 
Li gS‏ متاحة g Gle‏ وتعمل بصورة جيدة ويسهل إعدادها واستخدامها كأداة منفصلة أو 
ضمن تطبيقات أخرى. هذه الأداة مصممة لتقدير مدى قوة المشاعر الإيجابية والسلبية 
في النصوص القصيرة» وتتعامل بصورة جيدة مع اللغة غير الرسمية كالتي تستخدم 
في التغريدات. وخلاقا لعظم الأدوات الأخرى. تقدم أداة SentiStrength‏ اثنين 
من المؤشرات التي تدل على قوة المشاعر بصورة منفصلة» وهما مؤشر السلبية الذي 
يتراوح بين ١-‏ 975 (حيث يدل 07 على مؤشر سلبي للغاية)» ومؤشر الإيجابية الذي 
يتراوح بين ١‏ وه (حيث يدل ه على مؤشر إيجابي للغاية). تتوفر نسخة خاصة بنظام 
التشغيل ويندوز وكذلك نسخة مبنية بلغة جافا» ك| جرى دججها في الآونة الأخيرة 
مع منصة GATE‏ كملحق إضافي» مع العلم أن جميع النسخ قابلة للتخصيص عبر عدد 
من المعامللات (parameters)‏ المختلفة. غير أن هذه الأداة تعاني من المشكلات المعتادة 
في أدوات تعدين الآراء ال حالية» فهي تعمل جيدًا مع المشاعر الصريحة» لكنها لا تعمل 
بالجودة نفسها مع التعبيرات الأكثر تعقيدًا أو التي تتطلب قدرًا من المعرفة بطبيعة ما 
يجري في العالم» CS‏ تعتمد الجودة إلى حد بعيد على جودة المعاجم الخاصة بها. 

تحتوي معظم أطقم الأدوات الرئيسة الخاصة بمعالجة اللغات الطبيعية على مكونات 
خاصة بتعدين الآراء» أو يمكن على الأقل تطبيقها على هذه المهمة. تشمل هذه الأدوات 
Lingpipe; UIMA ;, NLTK‏ وطقم أدوات GATE s Stanford‏ وكذلك حزمة 
تعدين النصوص الخاصة بنظام R‏ وأيضًا cRapid Miner, Weka‏ وكلاهما لديه حزم 
خاصة بالتصنيف. تستخدم غالبية هذه الأنظمة أساليب التعلم الآلي (باستثناء منصة 
٤‏ التي تمتلك الاثنين) ولذا فهي تعتمد بشكل رئيس على جودة البيانات التدريبية 
والخصائص التي جرى اختيارها. 


l- http://sentistrength.wlv.ac.uk/ 
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۸-۷ خاتمة 

في هذا الفصل» قدمنا شرحًا لمفهوم تعدين الآراء واستعرضنا المهام المختلفة التي 
تشكل جزءًا منها في العادة. كا عرضنا كيف يمكن استخدام الأدوات والأساليب 
التى ورد شرحها في الفصول السابقة (وبالأخص أدوات المعالجة اللغوية المسبقة وتمييز 
كبانات الأسماء وتمييز المصطلحات) جميعًا في مهمة تعدين الآراء» وكيفية بناء أداة من 
هذه الأدوات بدءًا من الصفر باستخدام هذه المكونات. هناك الكثير من التحديات التي 
لا تزال تعترض طريق عملية تطوير أدوات تعدين الآراء» ويبقى مستوى الأداء متدنيا 
مقارنة بالعديد من مهام معالجة اللغات الطبيعية الأخرى» لكن هذا المجال يظل ميدانًا 
لعمليات البحث والتطوير التي تتم فيه على قدم وساقء على الرغم من أن الأدوات 
باتت تستخدم في سيناريوهات تجارية حقيقية. في الوقت الراهن» تسهم عملية دمج 
التقنيات الدلالية مثل البيانات المفتوحة المترابطة اللغوية Linguistic Linked Open)‏ 
(Data Cloud (LLOD)‏ السحابية مساهمة كبيرة في تحسين أداء هذه الآأدوات 
وشموليتهاء وني الآونة الأخيرة برزت إمكانية أن تصبح أساليب التعلم العميق مجدية 
في مجال تعدين الآراء. 


/http://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users -1‏ (جرت 
زيارة الموقع في ۲۹ يناير QU‏ 
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الفصل الثامن 
معاتحة اللفات الطبعنة ے شيكات التواضل 


Aye 


هذه الطبعة إهداء من SAM‏ 
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تعد الاستفادة من الطابع الاجتاعي للتفاعلات التي تحدث بين البشر الركيزة 
الأساسية التي يقوم عليها انتشار وسائل التواصل الاجتماعي على نطاق واسع» وذلك 
من خلال تمكين الناس من التعبير عن آرائهم ولعب أدوار في مجتمع افتراضي والتعاون 
سويًا عن بُعد. لو أخذنا التدوين القصير كمثال» يوجد في موقع تويتر أكثر من 300 
مليون مستخدم نشط ينشرون ملايين التغريدات بشكل يومي"". 

في الوقت الراهن» بات التفاعل النشط مع هذه المسارات الإعلامية ذات القيمة 
العالية والأحجام الكبيرة ودورة الحياة القصيرة يمثل Gog GA‏ يواجه المؤسسات 
والأفراد على حد سواء. ولذا فإن الحاجة لأتمتة هذه العملية بواسطة أساليب ذكية 
تعتمد على الدلالات للحصول على المعلومات باتت تتزايد بمرور الوقت. يمثل هذا 
الحقل ميدانًا جديدًا من ميادين البحث» ويجمع بين الأساليب المستخدمة في مجحالات 
متعددة؛ مجال معالجة اللغات الطبيعية والعلوم الاجتاعية والتعلم JY‏ والتشخيص 
واسترجاع المعلومات» بالإضافة إلى كونه يستخدم التقنيات الدلالية. 

لم تعد أساليب البحث التقليدية قادرة على التعامل مع سلوكيات البحث عن 
المعلومات في شبكات التواصل الاجتاعى التى باتت أكثر تعقيدّاء فقد مرت تلك 
السلوكيات بعملية تحور سارت ہا ies. ed‏ المعنى (sense making)‏ والتعلم 
والتحري والبحث الاجتأعى (social search)‏ [215]. تملك التقنيات الدلالية 
إمكانات تتيح لها مساعدة البشر في التكيف بصورة أفضل مع المعلومات الفائضة الناتجة 
عن محتوى شبكات التواصل الاجتماعي. في نهاية المطاف» يمكن أن تسهم الأساليب 
الآلية المستندة إلى الدلالات والتي تتكيف مع أهداف الفرد في سعيه للحصول على 
المعلومات وتوفير ملخص موجز لمحتوى شبكات التواصل الاجتتماعي ذي all‏ في 
دعم عملية تفسير المعلومات وصناعة القرارات في ضوء موارد إعلامية واسعة النطاق 
وتتغير باستمرار. 

وخلافًا للأخبار وغيرها من النصوص الموجودة على شبكة الإنترنت التي تجري 
صياغتها بعناية» تشكل موارد شبكات التواصل الاجتماعي عددًا من التحديات الماثلة 


-١‏ على سبيل المثال» تتراوح دقة أساليب تمييز كيانات الأسماء في العادة بين 5// و * Z.A‏ عندما تُطبق على المقالات الإخبارية» 
لکن دقتها تتراوح بين Ao ea /7”٠‏ في التغريدات IYY Y YA]‏ 
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أمام تقنيات الدلالات» وذلك بسبب اتساع حجمها وطبيعتها المشوشة والعشوائية 
وكونها ذات طابع اجتماعي. يناقش هذا الفصل مهام معالجحة اللغات الطبيعية وتحديات 
البحث التالية: 

وجه الاختلاف بين تحليل شبكات التواصل الاجتماعى وغيرها من النصوص 
الطويلة الأقل تشويشا؛ الأنطولوجيات المطورة لنمذجة محتوى شبكات التواصل 
الاجتماعي ونتائج التحليل» وإضافة الشروح الدلالية إلى محتوى شبكات التواصل 
الاجتماعي مع التركيز على استخراج الكلمات/ المصطلحات الرئيسة» وتمييز كيانات 
الأسماء والربط بينها واستخراج الأحداث وتعدين المشاعر والآراء وإجراء تحليل 
مقارن لأنواع الوسائط المختلفة. 

تمثل عملية البحث عن نتائج التحليل الدلالي لمحتوى شبكات التواصل الاجتماعي 
على نطاق واسع وتحويلها إلى صيغة صور مرئية مَهمة في غاية الصعوبة» وهو ما سنناقشه 


في الفصل التاسع. 


17A‏ مسارات شبكات التواصل الاجتماعي: الخصائص والتحديات والفرص 

تتيح شبكات التواصل الاجتماعي للمستخدمين التواصل بعضهم مع بعض لغرض 
تبادل المحتوى (كروابط المواقع والصور ولقطات الفيديو) والتجارب والمعلومات 
المهنيةء فضلاً عن التواصل مع الأصدقاء على الإنترنت. يقوم المستخدمون بإنشاء 
مشاركات أو تحديثات» وتقوم شبكات التواصل الاجتماعي بتعميمها على الدائرة 
الاجتماعية للمستخدم. الفرق الأساسي بين شبكات التواصل الاجتماعي وصفحات 
الويب التقليدية يكمن في أن مستخدمي شبكات التواصل الاجتماعي ليسوا مستهلكين 
غير فاغلين للمعلوماث» بل d‏ كدير منهم مجن للمسحتوى بغزارة. 

يمكن تصنيف شبكات التواصل الاجتماعي حسب أطياف مختلفة أو es‏ على نوع 
التواصل بين المستخدمين أو وفق كيفية تبادل المعلومات أو طريقة تفاعل المستخدمين 
مع مسارات الوسائط: 


SANI 
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تشجع وسائط رسم (nterest-graph media) cU (zal‏ ]216[ مثل تويتر 
المستخدمين على إنشاء روابط مع المستخدمين الآخرين بناءً على اهتماماتهم المشتركة» 
بغض النظر عن كونهم يعرفون الشخص الآخر في الحياة العادية el‏ لاء ولا تتطلب 
الروابط lo‏ أن تتم من كلا الطرفين. تكون المعلومات المتبادلة على شكل مجموعة من 
الرسائل المعروضة وفق ترتيب زمني عكسي. 

تشجع مواقع التواصل الاجتماعي (SNS)‏ المستخدمين على التواصل مع 
الأشخاص الذين تجمعهم بهم علاقات حقيقية في الحياة العادية. يتيح موقع فيسبوك 
مثلاً طريقة لتبادل المعلومات بين الناس وإضافة التعليقات على مشاركات الآخرين. 
في العادة يجري تبادل مشاركات قصيرة ترسم صورة لمجريات حياة المستخدمين الحالية 
أو تتضمن رابطًا لأشياء موجودة على شبكة الإنترنت يعتقد المستخدم أن أصدقاءه قد 
يجدونا ممتعة. يجري جمع هذه التحديثات على شكل مجموعة مشاركات ذات ترتيب 
cg‏ يكن لكل نخدم Agel‏ 

Cau:‏ خدمات التواصل المهني (PNS)‏ مثل لينكد إن (LinkedIn)‏ إلى توفير خدمة 
تغارف ف سباق می یگ يعد وجوه S go dal y‏ سین بر شهادة تزكية 
منك لذلك الشخص إلى حد معين» ونك توصى الآخرين بالعمل معه. في العادة يجري 
cola gall dat;‏ ال coUo ue‏ التراصل المي الى غيل erae‏ ان 
ces‏ فى 1 ]217 m‏ 

خدمات تبادل المحتوى والنقاش» كالمدونات ومواقع تبادل الفيديوهات (كيوتيوب 
وفيميو (Vimeo‏ ومواقع تبادل العروض التقديمية (كموقع 21 ومنتديات 
النقاش أو التقييم (CNET (ES)‏ تتضمن المدونات في العادة مشاركات أطول» 
وبإمكان القراء التعليق عليهاء ىا تقوم بعض المدونات بإنشاء مقالات ذات تسلسل 
زمني ليطلع عليها القراء. تقوم العديد من المدونات أيضًا بالإعلان عن مستجدات 
مدوناتها بصورة آلية في حسابات مستخدميهم على فيسبوك وتويتر. 

هذه الأنواع المختلفة من وسائل التواصل الاجتماعي؛ إلى جانب خصائصها 
المعقدة» تجعل عملية التفسير الدلالي شديدة الصعوبة. جرى تطوير الخوارزميات 
الحديثة التي تقوم بإضافة الشروح الدلالية وعمليات التصفح والبحث الآلي في المقام 
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الأول للمقالات الإخبارية وغيرها من أنواع المحتوى الإلكتروني التي تتميز بطوها 
وبجودة كتابتها [218]. على النقيض من ذلكء تعد تحديثات المشاركات في وسائل 
التواصل الاجتماعي (كتغريدات تويتر ورسائل فيسبوك) متشابكة بقوة» وذات دورة 
حياة قصيرة» وهي مشوشة وقصيرة وتعج بالتعبيرات العامية» وهو ما يؤدي إلى نتائج 
رديئة CPLLL‏ 


تطرح هذه الخصائص - والتي تعد صعوبات في وسائل التواصل الاجتماعي- فرصًا 
أمام تطوير منهجيات جديدة في التقنيات القائمة على الدلالات تكون مناسبة بصورة 
كبرى لوسائل التواصل الاجتماعي: 

الرسائل القضيرة S Rua ue sna)‏ ريات ترش وغالبية puso‏ فيسبو اك 
i cua‏ جا( ارف اللتغريذات). مدرو cya esl‏ الا سالب القافية عل NNI‏ 
التي سنستعرضها أدناه هذه التغريدات والرسائل بمعلومات إضافية وسياق مأخوذ 
من الروابط المضمنة فيها والوسوم (الحاشتاغ)”". على سبيل المثال» تعزز دراسة (أبيل 
وآخرون) [134] التغريدات من خلال ربطها بمقالات إخبارية صادرة في الحيز الزمني 
نفسه» في حين تستغل دراسة (مينديز وآخرون) قوائم علامات الوسوم الموجودة على 
الإنترنت لتعزيز التغريدات ]221[. 

المحتوى المشوش: غالبًا ما يتضمن محتوى وسائل التواصل الاجتماعي أساليب 
غير مألوفة في التهجئة (مثال: Ya] 2moro‏ من (tomorrow‏ واستتخدام الأحرف 
الكبيرة بصورة غير منتظمة (مثال: تكبير أو تصغير جميع الأحرف) ورموز المشاعر 
(مثال: (CP‏ والاختصارات التمييزية (مثال: (ZOMG; ROFL‏ تم تطوير أساليب 
لتحويل النص إلى الشكل القياسى ]222[ بالإضافة إلى بعض الدراسات حول 
الاختلافات اللغوية القائمة على الموقع بين أنماط التقصير في النصوص المصغرة ]223[. 
كما تُستخدم رموز المشاعر كمؤشرات مشاعر قوية في خوارزمية تعدين الآراء (راجع 


(E-Y-A القسم‎ 


-١‏ توصلت دراسة حديثة شملت ١ ١‏ مليون تغريدة أن Y V‏ من التغريدات الإنجليزية تحتوي على عنوان URL‏ فيا تحتوي 
7 من التغريدات علامة هاشتاغ» CS‏ تتضمن ۸ ZOE,‏ إشارة لاسم المستخدم [M‏ 
http://xmlns.com/foaf/0. 1/‏ -2 
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ا لحيز الزمني: بالإضافة إلى التحليل اللغويء محتوى وسائل التواصل الاجتماعي قد 
يناسب التحليل المعتمد على المسارات الزمنية» وهي مشكلة م BE‏ بقدر كاف من البحث. 
من الشروط الأساسية التي ينبغي توفرها في ناذج المعلومات المتعارضة والمتوافقة التي 
نحن بأمس الحاجة إليها التعامل مع مسألة كون وسائل التواصل الاجتماعي ذات حيز 
زمنى مؤقت» بالإضافة إلى نمذجة التغيير في اهتمامات المستخدمين. علاوة على ذلك 
يمكن دمج النملجة الرمنية مع تعذيق eI‏ ن أجل ila‏ درجة العقلب ف المراقف 
تجاه الملوضوعات مع مرور الوقت. 

السياق الاجتاعي: مهم لتفسير محتوى وسائل التواصل الاجتماعي بصورة 
صحيحة. كا ينبغى أن تستغل الأساليب القائمة على الدلالات سياق وسائل التواصل 
الاجتماعي (مثال: من الشخص الذي يتواصل معه المستخدم cll‏ وكم عدد مرات 
التواصل بينهم)» من أجل اشتقاق ناذج دلالية بصورة آلية لشبكات التواصل 
الاجتماعي وقياس سلطة المستخدم وتجميع المستخدمين المتشابيين ضمن cole gat‏ 
فضلاً عن إيجاد نموذج يعكس مدى موثوقية العلاقة بين الطرفين ومتانتها. 

المحتوى الناتج عن المستخدم: بالنظر لكون المستخدمين يقومون بإنتاج محتوى 
شبكات التواصل (uel YI‏ وكذلك استهلاكهاء هناك مصدر غنى بالمعلومات 
الصريحة والمعلومات الضمنية المتعلقة مستخدم ب في ذلك المعلومات الديموغرافية 
(الجنسء الموقع» العمرء ...الخ) والاهتمامات والآراء. يتمثل التحدي هنا في أن 
المحتوى الناتج عن المستخدم يكون محدودًا نسبيًا في بعض ال حالات؛ لذا لا يمكن تطبيق 
الأساليب الإحصائية المستندة إلى المكانز عليه بصورة ناجحة. 

تعدد اللغات: يتميز محتوى شبكات التواصل الاجتاعى بكونه متعدد اللغات 
peas‏ )3 كبري قعل سينا Jar ell‏ نسية nay ad‏ الى تنه ie Ales a‏ 
٠١‏ فيه| تحتل اللغات اليابانية والإسبانية والبرتغالية والألمانية موقعًا 15L‏ ]136[ 
لكن ما يؤسف له كون التقنيات الدلالية قد ركزت حتى الآن في أغلبها على اللغة 
الإنجليزية» في حين تبقى مسألة تعديلها لتتلاءم مع لغات جديدة لم تحسم بعد. يعد 
التمييز JYI‏ للغات ]136( 224[ خطوة أولى مهمة» حيث تسمح للتطبيقات بالتمييز 
Yol‏ بين أنواع محتوى شبكات التواصل الاجتاعي وفقا لمجموعات لغوية يمكن 
معالجتها بعد ذلك باستخدام خوارزميات مختلفة. 
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الجدول ١-8‏ : الأنطولوجيات وما تقوم بنمذجته 


شبكات التواصلإ المدونات اهتمامات e‏ 


الاجتماعي المصغرة المستخدمين 
pum ags '‏ 


ڪڪ pem‏ ود اح ح 
ا 1 EAT EUR‏ ت ا 
ا COC‏ 


تناقش باقي أقسام هذا الفصل كيف يتم التعامل مع هذه التحديات في الأعمال 
البحثية التى أجريت حتى الآن» ونتطرق إلى بعض الحوانب التى ما زالت تعد قضايا 
مطروحة للنقاش. 


Y-A‏ استخدام الأنطولوجيات لتمثيل دلالات وسائل التواصل الاجتماعي 
تُستخدم الأنطولوجيات بكثافة في عملية إضافة الشروح الدلالية وغيرها من أدوات 
معالجة اللغات الطبيعية. ونتيجة لذلك» سوف نركز في هذا القسم على الأنطولوجيات 
على وجه التحديد» فالأنطولوجيات يمكن أن تساعد أساليب معالحة اللغات الطبيعية 
فيا يتعلق بمختلف وسائل التواصل الاجتماعى والمحتوى المصاحب هاء با في ذلك 
ملفات المستخدمين والمشاركات ووضع علامات التصنيف وإضافة الروابط. يعرض 
الجدول ١-8‏ نظرة عامة على هذه الأنطولوجيات» إضافة إلى الجوانب المختلفة التى 
سيرد نقاشها بالتفصيل في القسم التالي: l‏ 
شرح الأشخاص وشبكات التواصل الاجتماعي: مصطلحات صديق - O gal‏ 
(FOAF Friend-of-a-Friend)‏ هي مجموعة مصطلحات تستخدم لوصف 
الأشخاص» حيث يضم الوصف أساء الأشخاص وبيانات الاتصال وعلاقة 
معرفة (knows)‏ عمومية. کا تدعم مصطلحات ۴04۴ إمكانية النمذجة المحدودة 
للاهتهامات من خلال نمذجتها كصفحات على موضوعات ele VI‏ وكا تقر وثائق 


1- http://sioc-project.org/ 
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مصطلحات FOAF‏ ذاتهاء OB‏ مثل هذا النموذج الأنطولوجي الخاص بالاهتمامات 
le 29427‏ ما. 


نمذجة مواقع شبكات التواصل الاجتاعي: تقوم أنطولوجيا المجتمعات 
الإلكترونية المترابطة (SIOC) OIN»‏ بنمذجة مواقع شبكات التواصل الاجتماعي 
(كالمدونات ومواقع الويكي والمنتديات الإلكترونية). تشمل المفاهيم الأساسية 
المنتديات والمواقع والمشاركات وحسابات المستخدمين ومجموعات المستخدمين 
وعلامات التصنيف. تدعم أنطولوجيا SIOC‏ نمذجة اهتمامات المستخدمين بواسطة 
خاصية sioc: topic‏ التي تكون قيمتها عبارة عن معرّف موارد موحد (URI)‏ (كما أن 
المشاركات ومجموعات المستخدمين كذلك تحوي عناوين). 

نمذجة المدونات المصغرة: يوجد في أنطولوجيا SIOC‏ امتدادات ظهرت في الآونة 
الأخيرة (SIOCT)‏ حيث تقوم هذه الامتدادات بنمذجة المدونات المصغرة باستخدام 
مفهوم MicroblogPost‏ الجديد» وخاصية sioc : follows‏ (التي تمثل العلاقات القائمة 
بين المتابعين والأشخاص الذين يتابعونهم على تويتر)» وخاصية sioc : addressed to‏ 
للمشاركات التي تذكر مستخدمين بعينهم. أنطولوجيا Bottari‏ ]225[ هي أنطولوجيا 
جرى تطويرها خصيصًا لنمذجة العلاقات القائمة على موقع تويتر» ولا سيا ربط 
التغريدات والمواقع ومشاعر المستخدمين (سواء أكانت إيجابية آم سلبية el‏ حايدة)» 
كامتدادات لأنطولوجيا 5010. كما استحدثت فئة جديدة تسمى «TwitterUser‏ 
بالإضافة إلى خاصيتين منفصلتين followings follower U^‏ تشبهان الخصائص 
الموجودة في .SIOCT‏ تنتمي فئة Tweet‏ إلى النوع csioc:Post‏ وخلافا لأنطولوجيا 
ë SIOCT‏ أنطولوجيا Bottari‏ أيضًا بين التغريدات المكررة والإجابات. كما يتم 
تمثيل المواقع بواسطة مصطلحات W3C‏ الجغرافية"» وهو ما يتيح إمكانية إجراء 
التعليل المستند إلى المواقع . 

الترابط بين وسائل التواصل ue YI‏ والشبكات الاجتاعية وتمارسات 
المشاركات الإلكترونية: توفر أنطولوجيا DLPO‏ نموذجًا شاملا لمشاركات وسائل 


1- http;//www.w3.org/2003/01/geo/ 
طورت لنمذجة قواميس وقوائم مصطلحات ومصطلحات متحكم فيها.‎ ‘/http://www.w3 .org/2004/02/skos -2 
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التواصل الاجتماعي يتجاوز US‏ موقع تويتر ]226[ كا أن لها جذورًا راسخة في 
الأنطولوجيات الأساسية كأنطولوجيا FOAF‏ وأنطولوجيا 5010 ونظام ترتيب 
المعلومات البسيط (SKOS)‏ تقوم أنطولوجيا DLPO‏ بنمذجة المعرفة الشخصية 
والاجتماعية المكتشفة من وسائل التواصل الاجتماعيء بالإضافة إلى ربط المشاركات 
عبر الشبكات الاجتاعية الشخصية. كا تضم هذه الأنطولوجيا ستة أنواع رئيسة 
من المعرفة» وهي المشاركات الإلكترونية وأنواع المشاركات المختلفة (كالتغريدات 
المكررة) والمشاركات المصغرة والحضور الإلكتروني (online presence)‏ والحضور 
المادي وتمارسات المشاركات الإلكترونية (كاستخدام الروابط والإضافة إلى قائمة 
التفضيلات). غير أنه على الرغم من أن الموضوعات والكيانات والأحداث وكذلك 
الأزمان قد نالت حظها من النقاش. إلا أن أدوار سلوك المستخدم والسمات الشخصية 
م تعالج بصورة شاملة في أنطولوجيا SWUM‏ [227] التي يرد نقاشها أدناه. 

نمذجة دلالات علامات التصنيف: تسمح أنطولوجيا MOAT‏ (وهي اختصار 
Meaning-Of-A-TagJ‏ (معنى علامة التصنيف)) ]228[ للمستخدمين تحديد 
المعنى الدلالي لعلامات التصنيف من خلال ربط البيانات المفتوحة وإنشاء شروح 
دلالية لوسائل التواصل الاجتماعي في نباية المطاف. تحدد هذه الأنطولوجيا تعريف 
اثنين من علامات التصنيف» وها علامة التصنيف العمومية (أي تشمل المحتوى 
بأكمله) وعلامات التصنيف المحلية (علامات تصنيف خاصة بمصدر معين). 
يمكن دمج أنطولوجيا MOAT‏ مع أنطولوجيا SIOCT‏ من أجل تصنيف مشاركات 
المدونات المصغرة [229]. كا تقوم أنطولوجيا DLPO‏ التي ورد شرحها أعلاه بنمذجة 
الموضوعات وعلامات التصنيف المرتبطة بالمشاركات الإلكترونية C)‏ في ذلك المدونات 
المصغرة). 

أنطولوجيات نمذجة المستخدم مهمة لتمثيل معلومات المستخدمين وتفاعلاتهم على 
وسائل التواصل الاجتماعي وتجميعها ومشاركتها. على سبيل المثال» #بدف أنطولوجيا 
نمذجة المستخدم العمومية (GUMO)‏ ]230[ إلى تغطية نطاق واسع من معلومات 
المستخدمين كالبيانات الديموغرافية وبيانات الاتصال وأنواع الشخصيات ...الخ. 


1- http://twittersentiment.appspot.com/ 
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غير آنا لا ترقى إلى مستوى تمثيل اهتمامات المستخدمين» وهو ما يجعلها غير ملائمة 
لوسائل التواصل الاجتماعي. 

بناء على تحليل أجري على 17 تطبيقا Cel‏ من تطبيقات الشبكات الاجتماعية» 
قام (بلومباوم وآخرون) [227] باشتقاق عدد من أبعاد نموذج المستخدم المطلوبة 
لبناء أنطولوجيا نمذجة مستخدمى الشبكات الاجتاعية. تشمل تصنيفات الأبعاد 
الى aga tel‏ المتلرمات الديمر عراقة والامذاناف والشفيلات altei‏ 
و لاحل اس alya u A DE Ill‏ 
والسمات الشخصية (كالنمط الإدراكي ونوع الشخصية). وبناء على تلك الأمورء قاموا 
بإنشاء أنطولوجيا SWUM‏ (نموذج مستخدم الويب الاجتماعي). لكن من عيوب 
أنطولوجيا SWUM‏ عدم اعتمادها على الأنطولوجيات الأخرى. على سبيل «JUI‏ 
يتم ترميز خصائص موقع المستخدم كالبلد والمدينة على شكل تسلسلات (strings)‏ 
وهو ما يحد بشكل كبير من جدواها في مجال التعليل (مثال: من الصعب إيجاد جميع 
المستخدمين المتواجدين في جنوب غرب إنجلتراء بالاعتاد على مدنهم). تتمثل المنهجية 
البديلة التى يمكن استخدامها في تحديد تعريف تلك الخصائص بواسطة معرف الموارد 
الموحد (URD‏ الذي يرتكز على موارد البيانات المترابطة (Linked Data)‏ التي يشيع 
استخدامهاء مثل .Freebase ; DBpedia‏ 

del‏ تقوم أنطولوجيا سلوك المستخدم ]231[ بنمذجة تفاعلات المستخدمين في 
المجتمعات الإلكترونية. كا جرى استخدامها لنمذجة سلوك المستخدم في المنتديات 
الإلكترونية ]231[ وكذلك النقاشات على As‏ [232]. يوجد فيها LÍ‏ فئات 
(classes)‏ تقوم بنمذجة تأثير المشاركات (الإجابات والتعليقات ...الخ) وسلوك 
المستخدم وأدوار المستخدم (على سبيل المثال: Le‏ ذو شعبية» داعم» مُهمّل) والسياق 
الزمنى (الإطار الزمنى) وغيرها من معلومات التفاعل. تحظى مسألة معالجة البعد 
الزمني لوسائل التواصل الاجتماعي بأهمية خاصة» ولا سيا عند نمذجة التغييرات 
التي تحدث بمرور الوقت (كالتغييرات التي تؤثّر في اهترامات المستخدمين وآرائهم). 

وكتلخيص لما سبق» هناك عدد من الأنطولوجيات المتخصصة التي تهدف إلى تمثيل 
المعلومات الدلالية المشتقة بصورة آلية من وسائل التواصل الاجتاعي وتعليلها. غير 
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أنه بالنظر إلى كونها تعالج ظواهر مختلفة» فإن تطبيقات معالجة اللغات الطبيعية تعتمد 
أكثر من أنطولوجيا واحدة أو توسّع نطاق عملها لتلبية متطلباتها. في بعض ال حالات. 
يجري استخدام أساليب معالجة اللغات الطبيعية لتعبئة هذه الأنطولوجيات DYLL‏ 
(instances)‏ بصورة تلقائية» وذلك استنادًا إلى محتوى وسائل التواصل الاجتماعي 
(مثل تعبئة نماذج المستخدمين والمجتمعات الخاصة بمجموعة محددة من المستخدمين/ 
المجتمعات). 


۳-۸ إضافة الشروح الدلالية إلى وسائل التواصل الاجتماعي 

قام الباحثون بالتحقيق ås pat à‏ كبيرة من مهام إضافة الشروح الدلالية إلى 
محتوى وسائل التواصل الاجتتماعي. يناقش هذا القسم جانبًا من هذه الأمور بمزيد من 
التفصيل» بداية من مهمة استخراج العبارات المفتاحية. 


٠-۳-۸‏ استخراج العبارات المفتاحية 

تتميز العبارات المفتاحية المختارة بصورة آلية بكونما مفيدة في تمثيل موضوع وثيقة 
معينة أو مجموعة من الوثائق» على الرغم من Ul‏ ليست فعالة Moe‏ في عرض الحجج أو 
الإفادات الكاملة الموجودة في تلك الوثائق. لذلك يمكن اعتبار استخراج العبارات 
المفتاحية نوعا من استخراج المعرفة السطحي الذي يقدم لمحة عامة موضعية. d‏ سياق 
إضافة الشروح الدلالية واسترجاعهاء يمكن استخدام الكلمات المفتاحية أيضًا كأداة 
لتقليل تعدد الأبعاد (dimensionality)‏ والسماح للنظام بالتعامل مع مجموعة أقل من 
الفطلحات الميمة بدلا من JI‏ 325 بأكملها: 

تعد مهمة استخراج العبارات المفتاحية وثيقة الصلة بمهمة استخراج المصطلحات» 
إلا أنها تختلف عنها في المقام الأول في كونها ذات طابع تمثيلي. ag‏ مهمة استخراج 
العبارات المفتاحية إلى تمثيل الموضوع عن طريق استخراج الكلمات والعبارات الأكثر 
أخمية» ولذا فهي تعطي نظرة عامة نوعًا ماعن الوثيقة» ولذا فإن لديا هدفا s Õle‏ واضحًا. 
من جهة أخرى لا تسعى مهمة استخراج المصطلحات إلى تمثيل الوثيقة بصورة مباشرة 
لكنها تحاول فقط إيجاد المصطلحات ذات النطاق المحدد (domain-specific)‏ التى 
حرم a Lotta‏ اياف السطاتدات Li PE‏ 
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في حين تكون المصطلحات المستخرجة مرتبطة بأنطولوجيا أو بمصطلحات أخرى. 
هذا الأمر لا ينطبق على عملية استخراج العبارات المفتاحية. 

تستغل بعض منهجيات استخراج الكلمات المفتاحية التوارد المشترك بين المصطلحات 
c(term co-reference)‏ |3 تقوم بإنشاء رسم ls‏ مكون من مصطلحات وله حواف 
(edges)‏ مشتقة من المسافة الفاصلة بين أزواج المصطلحات الواردة في النص» وإعطاء 
أوزان لزوايا vertices)‏ الرسم البياني [233]. أنشئ هذا النوع من استخراج الكلمات 
المفتاحية للحصول على أداء جيد عند معالجحة بيانات تويتر مقارنة بالأساليب المستندة 
إلى نماذج النصوص [234]. 

ولعل من أسباب الأداء الجيد الذي تقدمه المنهجيات المستندة إلى الرسوم البيانية 
المستخدمة في استخراج الكلمات المفتاحية من تويتر كون هذا النطاق يحتوي على قدر 
كبير من التكرار [235]. على سبيل المثال» في سياق الموضوعات الأكثر alos‏ على تويتر 
(التي يشار إليها بواسطة علامات الحاشتاغ)» قامت دراسة ]236[ باستخراج عبارات 
مفتاحية عن طريق الاستفادة من التكرار النصي واختيار التسلسلات الشائعة للكلمات. 
وني حين يعد التكرار في تويتر وغيره من شبكات التواصل الاجتماعي مفيدًا نوعًا ما 
عندما يتعلق الأمر بإنشاء ملخصات الكلمات المفتاحية» هناك سمة أخرى أقل فائدة» 
وهي التنوع الكبير في الملوضوعات التي تجري مناقشتها. في الحالات التي تناقش فيها 
الوثائق أكثر من موضوع واحدء قد تكون هناك صعوبة في استخراج مجموعة متناسقة 
ودقيقة من الكلمات منها. 

عند التعامل مع تحديثات توتير الشخصية على أنها وثيقة واحدة» فإنها تطرح هذه 
الإشكالية. بصورة عامة» يستطيع المستخدمون نشر مشاركات تتناول عدة موضوعات. 
وني حين تستخدم دراسة ]234[ أداة TextRank‏ لمعالجة جميع تحديثات المستخدم» 
إلا أن الباحثين في تلك الدراسة لم يحاولوا نمذجة التباين في الموضوعات أو التعامل 
معه» وذلك على عكس الباحثين في دراسة [237] الذين قاموا بدمج مهمة نمذجة 
الموضوعات في منهجيتهم. لم تكن دراستهم الدراسة الوحيدة التي قامت بتطبيق 
نمذجة الموضوعات على بيانات تويتر» وذلك لأن دراسة ]238[ قامت بذلك أيضًا. 
غير أنه في الدراسة الأخيرة لم يجر تلخيص الموضوعات على الرغم من استكشافها. 
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في سياق خدمات التصنيفات والتفضيلات الاجتاعية مثل Delicious ; Flickr‏ 
Bibsonomy s‏ درس الباحثون التصنيف التلقائى للوثائق الجديدة بواسطة بطاقات 
التصنيف (tags)‏ الخاصة بالفهرسة الجاعية m (folksonomy)‏ نظام AutoTag‏ من 
أوائل المنهجيات ]239[ حيث يقوم هذا النظام بإضافة بطاقات تصنيف إلى مشاركات 
المدونات. في البداية» يعثر النظام على مدونات متشايهة ومفهرسة مسبقا باستخدام 
أساليب استرجاع المعلومات المعيارية» وذلك باستخدام المدونة الجديدة كاستفسار. 
بعد ذلك يقوم بإنشاء قائمة مرتبة مكونة من بطاقات تصنيف (tags)‏ مأخوذة من 
المشاركات الأكثر صلة» ومعززة بمعلومات عن بطاقات التصنيف التى استخدمها 
ا l‏ 

تستخدم ا منهجيات الحديثة عملية استخراج العبارات المفتاحية من حتوى المدونات 
من أجل اقتراح بطاقات تصنيف جديدة. على سبيل المثال» تقوم دراسة ]240[ بتوليد 
عبارات مفتاحية محتملة من سلاسل ن-جرام (n-grams)‏ وذلك اعتمادًا على بطاقات 
تصنيف أقسام الكلام (POS)‏ الخاصة بهاء وبعدها تقوم بفرزها باستخدام مُصنّف 
انحدار لو جستي (logistic regression classifier)‏ - يمكن دمج الأسلوب القائم 
على العبارات المفتاحية مع المعلومات المستمدة من الفهرسة (folksonomy) ishl‏ 
]241[( وذلك من أجل توليد توقيعات بطاقات التصنيف (tag signatures)‏ (أي 
ربط كل بطاقة تصنيف في الفهرسة الجماعية بمصطلحات موزونة ومترابطة UN»‏ 
بعد ذلك تجري المقارنة بينها وترتيبها في ضوء المدونة الجديدة» وذلك من أجل اقتراح 
بطاقات التصنيف الأكثر صلة. 


۲-۳-۸ تمييز كيانات الأسماء المستند إلى الأنطولوجيات ني وسائل التواصل الاجتماعي 

ثبت أن أساليب تمييز كيانات الأسماء» التي يجري تدريبها عادة على النصوص الطويلة 
الأكثر انتظامًا (كالمقالات الإخبارية) تعطى أداءً سيئًا عند تطبيقها على محتوى وسائل 
التواصل الاجتماعي التي تنسم بكونها أقصر وأكثر تشويشا من أنواع المحتوى الأخرى 
[220]. غير أنه في حين تقدم كل مشاركة على حدة سياقًا لغويا غير مکتمل» إلا أنه يمكن 
الحصول على معلومات إضافية من ملفات المستخدمين وشبكات التواصل الاجتماعى 
والمشاركات المترابطة (كالردود على رسائل التغريدات). يناقش هذا القسم ما نسميه 
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منهجيات إضافة التعليقات والشروح الدلالية الموجهة لوسائل التواصل الاجتاعي» 
التي تدمج بين السمات اللغوية والسمات الخاصة بوسائل التواصل الاجتماعي. 

يتناول (ريتر وآخرون) في دراسة [220] مشكلة تصنيف كيانات الأسماء (لكن 
ليس إزالة الغموض عنها) باستخدام قاعدة المعرفة Freebase‏ كمصدر لعدد كبير من 
الكيانات المعروفة. من دون أخذ السياق بعين الاعتبار» لا يحقق النظام المبسط للبحث 
عن الكيانات وتحديد النوع سوى نسبة ^ LY‏ في درجة (f-score) f‏ (تكون Yo‏ 
من الكيانات غامضة ولديها أكثر من نوع واحدء في حين لا تظهر /7١‏ من الكيانات 
الموجودة في التغريدات في قاعدة المعرفة .(Freebase‏ عند تطبيق تصنيف كيانات 
الأسماء يتحسن الأداء ليصل إلى 2/77 وذلك عبر استخدام ناذج موضوعات مصنفة 
تأخذ السياق بعين الاعتبار وكذلك التوزيع على أنواع ASI Freebase‏ تسلسل من 
تسلسلات الكبانات (مكال: يمكن أن تكون أمازون شركة أو موقعا). 

تتناول دراسة (آيرسون وآخرون) [242] مشكلة إزالة الغموض (تحديد أس)ء المواقع 
ا لجغرافية) عن موقع بطاقات التصنيف في Flickr‏ تقوم هذه المنهجية على أساس قاعدة 
المعلومات الدلالية GeoPlanet‏ التابعة لياهو, حيث تقوم بإعطاء معرّف موارد موحد 
(URD‏ لموقع كل حالة instance)‏ بالإضافة إلى تصنيف مكوّن من مواقع مترابطة 
(مثال: المواقع المتجاورة). تستخدم منهجية إزالة الغموض عن بطاقات التصنيف جميع 
بطاقات التصنيف الأخرى المعطاة للصورة» وكذلك سياق المستخدم (جميع بطاقات 
التصنيف المعطاة من قبل هذا المستخدم لجميع الصور الخاصة به)» وسياق المستخدم 
الممتد الذي يأخذ بعين الاعتبار بطاقات التصنيف الخاصة بجهات الاتصال الموجودة 
لدى المستخدم. وقد جرى إثبات أن استخدام هذا السياق الأوسع المعتمد على الدائرة 
الاجتاعية بحسن بشكل كبير دقة عملية إزالة الغموض بصورة عامة. 

هناك مصدر آخر للدلالات الإضافية الضمنية» وهي علامات الهاشتاغ المستخدمة 
في رسائل C‏ التي تحولت إلى وسيلة تتيح للمستخدمين متابعة النقاشات الدائرة 
حول موضوع معين. قام لانيادو وميكا [243] بالتحقيق ني دلالات علامات اهاشتاغ 
في 4 مليون رسالة» مستخدمين أربعة مقايبس هي تكرار الاستخدام» ودرجة 
التحديد (استخدام علامات الهاشتاغ بدل كلمة ما في مقابل استخدام الكلمة نفسها)» 
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وتناسق الاستخدام» والثبات بمرور الوقت. بعد ذلك ُستخدم تلك المقاييس لتحديد 
علامات الحاشتاغ التي يمكن استخدامها كمُعرّفات ومن ثم da‏ بمُعرّفات الموارد 
الموحدة (URDI)‏ الخاصة بقاعدة معلومات Freebase‏ (معظمها عبارة عن كيانات 
أسماء). استخدمت علامات الماشتاغ LÀ‏ كمصدر Ua]‏ للمعلومات الدلالية 
المتعلقة بالتغريدات» وذلك بإضافة تعريفات نصية لعلامات هاشتاغ مأخوذة من 
قواميس إلكترونية جماهيرية [221]. بدورهم قام (مينديز وآخرون) [221] بإضافة 
الشروح الدلالية عن طريق إجراء بحث بسيط عن الكيانات مقارنة بالكيانات والفئات 
الموجودة في DBpedia‏ من دون إزالة الغموض بصورة كبرى. جرى ترميز الخصائص 
ذات الصلة بالمستخدم وكذلك الارتباطات الاجتاعية في ea FOAF‏ جرى ترميز 
الشروح الدلالية في أنطولوجيا MOAT‏ (راجع القسم (Y-A‏ 
الجدول A, Y‏ إضافة الشروح الدلالية بواسطة الأنطولوجيات: أدوات بحث مختارة 


الأنطولوجيا/ | الشروحات | إزالة النطاق المكنز التقييم 
مورد البيانات | الناتجة | الغموض | المستهدف | المستخدم | بواسطة 
المفتوحة المترابطة 
المستخدم 
DBpedia, DBpedia‏ | أكثر من ٣٣‏ نعم نطاق | ويكيبيديا | الأخبار 
Freebase Spotlight‏ نوع مفتوح 
]115[ 
YAGO LINDEN‏ أنواع نعم du‏ ويكيبيديا | TAC-‏ 
YAGO [117]‏ مفتوح KBP‏ 
2009 
Freebase Ritter‏ ٠أنو‏ اع لا نطاق تغريدات | تغريدات 
[220] مفتوح 
GeoPlanet Ireson‏ المواقع نعم الصور فليكر فليكر 
]242[ 
Freebase Freebase Laniado &‏ نعم نطاق التغريدات | تغريدات 
Mika [243]‏ مفتوح 
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الأنطولوجيا/ ١‏ الشروحات | إزالة النطاق المكنز التقييم 
مورد البيانات الناتجة | الغموض | المستهدف | المستخدم | بواسطة 
المفتوحة المترابطة 
Wikipedia | Wikipedia Meij [121]‏ نعم نطاق ويكيبيديا | تغريدات 
Bg‏ 
MusicBrainz Gruhl‏ الأغان نعم نطاق مايسبيس | مشاركات 
]244[ والألبومات الموسيقى مايسبيس 
DBpedia Rowe‏ ذات صلة نعم cl‏ | تغريدات Yes‏ 
[134] بالتوارد تغريدة 
الوك 
Wikipedia Choudhury‏ لاعبو نعم الأحداث | ويكيبيديا ٠‏ تغريدات 
[245] الكريكت» الرياضية الكريكت 
الألعاب 


تستفيد منهجيات ربط الكيانات المستندة إلى ويكيبيديا (راجع القسم Y‏ , 0( بصورة 
كبيرة من السياق اللغوي الأكبر المتوفر في المقالات الإخبارية وصفحات الويب. قدم 
تقييم DBpedia Spotlight‏ ]115[ وطريقة Witten ; Milne‏ ]114[ باستخدام قاعدة 
بيانات مكونة من تغريدات أداءً أسوأ بكثير ]121[ يقترح (ميج وآخرون) ]121[ 
استخدام منهجية خاصة بتويتر لربط هذا النوع من الرسائل القصيرة والمشوشة 
بمقالات ويكيبيديا. تستخدم الخطوة الأولى سلاسل ن-جرام (n-grams)‏ لتوليد 
قائمة من مفاهيم ويكيبيديا المحتملة» وبعد ذلك يستخدم أسلوب التعلم الخاضع 
للإشراف لتصنيف كل مفهوم على أنه إما مفهومٌ ذو صلة أو مفهوم غير ذي صلة 
(في ضوء التغريدة والمستخدم الذي قام بكتابتها). تستخدم هذه الوسيلة خصائص 
مستمدة من سلاسل ن-جرام (n-grams)‏ (كعدد مقالات ويكيبيديا التي تضم 
سلسلة ن-جرام هذه)» وخصائص مقالات ويكيبيديا (كعدد DYU‏ التي تحتوي de‏ 
رابط للصفحة المعنية)» وخصائص التغريدات (كاستخدام تعريفات علامات اهاشتاغ 
وصفحات الويب المترابطة). 


-۱۹۷- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


يركز (جروهل وآخرون) ]244[ ina‏ خاصة على عنصر إزالة الغموض في 
عملية إضافة الشروح الدلالية ويقومون بدراسة مشكلة التعامل مع الحالات شديدة 
الغموض. مثلم| هو الحال مع عنوانات الأغاني والألبومات الموسيقية. تقوم المنهجية 
التي يعتمدونها أولاً بتقييد الجزء الموجود في أنطولوجيا MusicBrainz‏ المستخدم 
لإنتاج الاحتمالات G)‏ هذه الحالة يكون ذلك عن طريق إزالة جميع المعلومات المتعلقة 
بالفنانين الموسيقيين الذين لم يرد ذكرهم في النص المعني). G‏ يقومون بتطبيق مهام 
معالجة اللغات السطحية» مثل تصنيف أقسام الكلام وتجزئة العبارات الاسمية 
وبعد ذلك يستخدمون هذه المعلومات كمُدخلات لصتف if‏ دعم المتجه support)‏ 
(vector machine classifier‏ والذي بدوره يقوم بإزالة الغموض بناءً على اساي 
هذه المعلومات. اختيرث هذه المنهجية على مكنز يضم مشاركات موقع MySpace‏ 
لثلاثة فنانين. وعلى الرغم من أن الأنطولوجيا كبيرة جدًا (الأمر الذي يولد الكثير من 
الغموض». إلا أن النصوص شديدة التركيزء وهو ما يسمح للنظام بتحقيق أداء جيد. 
وكا ذكر القائمون على الدراسة أنفسهم, من المرجح أن تطرح عملية معالجة النصوص 
الأقل تركيرًا كرسائل تويتر أو المقالات الإخبارية تحديًا أكبر بكثير. 

ea y‏ يتعلق بربط الكيانات» كشفت التقبيمات التي تناولت تغريدات تويتر في الآونة 
الأخيرة عن وجود مشكلات في استخدام المنهجيات العصرية في هذا النوع ]13467( 
ويعود سبب ذلك إلى حد بعيد إلى قصر التغريدات VES)‏ حرفا) وأيضًا إلى التعامل مع 
كل مشاركة على حدة من دون أخذ السياق الأشمل المتاح بعين الاعتبار. على وجه 
ا لخصوص» تجري معالجة نصوص التغريدات فقط في العادة» على الرغم من أن عنصر 
(ISON object) JSON‏ يضم UA)‏ بيانات تتعلق بملف المستخدم (الاسم الكامل» 
الموقع الاختياري» نص الملف الشخصي» وصفحة الويب). كا تشمل قرابة AY‏ من 
جميع التغريدات عنوانات URL.‏ [136] وتضم ,3 منها علامات هاشتاغ» في حين 
تحتوي ۸ , L0 E‏ منها إشارة إلى اسم مستخدم واحد على الأقل. 
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الشكل ١-8‏ : نتائج كاليه للتغريدات. 

لا تستفيد أنظمة تييز كيانات الأسماء التي تستهدف المدونات المصغرة في العموم 
من إشارات وسائل التواصل الاجتماعي» فهي تتعامل مع علامات الماشتاغ مثلاً على 
ul‏ من الأساء المشتركة (common nouns)‏ على سبيل JU‏ نظام ]219. 246[« 
أو لا تعدها كذلك, Qus‏ هو JUH‏ في نظام TwiNER‏ [247]. تستخدم دراسة 
(شين وآخرون) ]139[ تغريدات إضافية مأخوذة من تحديثات المستخدم للعثور 
على موضوعات خاصة بالمستخدم واستخدام تلك الموضوعات لتحسين عملية إزالة 
الغموض. تطرح دراسة (هوانج وآخرون) ]140[ صيغة موسّعة لعملية إزالة الغموض 
المستندة إلى الرسوم البيانية تستحدث «مسارات وصفية» (Meta Paths)‏ تمثل السياق 
المستمد من التغريدات الأخرى عبر علامات الماشتاغ المشتركة أو مؤلفي التغريدات 
المشتركين أو الإشارات (mentions)‏ المشتركة. تقوم دراسة (جاتاني وآخرون) [141] 
بتوسيع عنوانات URL‏ المختصرة والسياق المستمد من التغريدات التي تعود إلى المؤلف 
نفسه والتغريدات التي تحتوي على علامات الحاشتاغ ذاتهاء لكنها لا E‏ مساهمة هذا 
السياق الإضافي في الأداء النهائي» ولا تستغل تعريفات علامات الحاشتاغ كا لا 
تستخدم نصوص ملفات المستخدمين الشخصية. 


لدراسة تأثير السياق الاجتماعى الأشمل على أداء عمليات إزالة الغموض في التغريدات 
المستندة إلى البيانات المفتوحة المترابطة des (LOD)‏ وجه الخصوص ما يتعلق 
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بعلامات gel‏ جرى تعزيز محتوى التغريدات بتعريفات علامات الهاشتاع المستمدة 
تلقائيا من شبكة الإنترنت. وبا مثل» جرى تعزيز التغريدات التي تحتوي على إشارات 
mentions(a)‏ بمعلومات نصية مستمدة من ذلك الملف "T‏ الموجود على تويتر 
المشار «J|‏ بإشارة .mention(a)‏ وفيا يتعلق بعنوانات URL‏ أر فقت التغريدة بنص 
الويب التى تحتوي عليها الروابط. جرى قياس elal‏ عملية إزالة الغموض في حالتين هما 
علد Loic‏ توسيع النطاق بصورة فردية T)‏ استخدام علامات الهاشتاغ فقطء أو 
استخدام عنوانات URL‏ فقط» (GI...‏ وكذلك عند استخدام جميع أنواع المعلومات 
السياقية مجتمعة. أظهرت الاختبارات أن توسيع التغريدات أدى إلى تحسن كبير في أداء 
عملية ربط الكيانات في حتوى المدونات المصغرة. على وجه po pabl‏ تحسنت الدقة 
الإحمالية بنسبة VY‏ المائة» Que‏ أن الزيادة في الأداء كانت أقل بالنسبة لدرجة Fl‏ 
حيث سجلت 5,7 ف AU‏ 


معظم التحسن في الأداء نتج عن القدرة على إزالة غموض إشارات 126011005060 
حيث أخفقت عملية استخدام نصوص التغريدات فقط في التعرف على مرجع 
DBpedia (referent)‏ الذي تشير إليه تلك الإشارات. يتمثل المساهم الرئيس إذا في 
تحسّن الأداء في هذه الحالة في الاستدعاء. ينبغي أيضًا ملاحظة أنه حتى من دون توسيع 
نطاق الإشارات» فقد أدى توسيع عنوانات URL‏ وعلامات الهاشتاغ إلى حدوث 
تحسينات كبيرة. 


معالحة حتوى وسائل التواصل الاجتماعى بواسطة منصة GATE‏ 

نظرًا للطبيعة الصعبة لوسائل التواصل الاجتماعي (راجع القسم ^ فقد جرى 
تكييف أدوات المعالجة المسبقة وتمييز الكيانات الموجودة في منصة GATE‏ (راجع 
الفصلين الثاني والثالث) لتلائم هذا النوع من المحتوى. 

لهذا السبب» توفر منصة GATE‏ مكونًا إضافيًا TwitIE „poms‏ ]248[ - وهو نسخة 
مخصصة من أداة ANNIE‏ صممت خصيصًا لمحتوى وسائل التواصل الاجتهاعي» 
وجرى اختبارها على نطاق واسع في رسائل المدونات المصغرة. يتسم محتوى المدونات 
المصغرة في كونه متاحًا بسهولة على شكل تحديثات iole‏ ضخمة»ء كما يعد هذا المحتوى 
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الأصعب من حيث المعالجة بواسطة أدوات 18 العمومية» وذلك بسبب كونه ذا طابع 
موجز ومشوش» وأيضًا لانتشار المصطلحات العامية فيه وأشكال التعبيرات المتعارف 
عليها في تويتر. 

يظهر الشكل ۲-۸ مراحل منظومة 1۷1۴ ومكوناتها. تتوفر منظومة TwitlE‏ 
كمكون إضافي في منصة GATE‏ ويلزم تحميلها لكي تظهر موارد المعالجة هذه داخل 
مطور .GATE Developer‏ تظهر المكونات المستمدة من أداة ANNIE‏ التي لم يطراً 
عليها أي تعديلات باللون الأزرق» في حين تعد المكونات الظاهرة باللون الأحمر 
مكونات جديدة وخاصة بوسائل التواصل الاجتماعي. 

تتمثل الخطوة الأولى في تحديد اللغة» وهي مهمة تعتمد على نسخة من TextCat‏ جرى 
تعديلها لتتناسب مع وسائل التواصل الاجتماعي [136]. وبسبب قصر التغريدات» 
يفترض النظام أن كل تغريدة مكتوبة بلغة واحدة. AÈ‏ اللغات المستخدمة للتصنيف 
بواسطة ملف تكوين (configuration file)‏ يتم توفيره كمعامل initialization) à‏ 
Le (parameter‏ إعطاء مجموعة من التغريدات المكتوبة بلغة جديدة» يمكن تدريب 
نظام TextCat TwitIE‏ لدعم تلك اللغة الحديدة أيضًا. يجري ذلك باستخدام برنامج 
توليد co «(Fingerprint Generation PR) (JI‏ في مكون Language!‏ 
LANI Identification‏ في منصة GATE‏ ]249[ يقوم البرنامج بإنشاء بصمة جديدة 
من مكنز مكون من الوثائق. 

ill, رن الل الارن قاض‎ co ine ا‎ TWitIE Jal te jt ds 
لتجزئة الجمل ]220[ يتعامل هذا المجزئ على‎ Rite وهو مبني على نظام‎ (ANNIE 
كوحدة لغوية‎ URL وعنوانات‎ (ROFL ; RT وجه التحديد مع الاختصارات (مثل‎ 
وحدتين‎ (mentions) واحدة لكل اختصار. تكون علامات الماشتاغ والإشارات‎ 
الوارد أعلاه)‎ JULI في‎ nike لغويتين (أي وحدة لعلامة # ووحدة أخرى لكلمة‎ 
أضيفت إليه التعليقات والحواشي بحيث يغطي كلا‎ (HashTag) بالإضافة إلى هاشتاغ‎ 
على الأحرف الكبيرة» لكن تضاف خاصية تتعلق بالتهجئة:‎ BUH الجانبين الاثنين. يتم‎ 
عندما تكون جميع الأحرف كبيرة» وعند استخدام الأحرف الصغيرة» وعند استخدام‎ 
الأحرف الكبيرة والصغيرة المختلطة. تتم معالجة الأحرف الصغيرة والرموز التعبيرية‎ 
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(emoticons)‏ في وحدات منفصلة نظرًا لعدم وجود حاجة إليها في العادة. بناءَ على 
ذلك» تكون عملية التجزئة أسرع وأكثر شمولية» وكذلك أكثر ملاءمة لاحتياجات 
عملية تمييز كيانات الأسماء. 


يتألف المعجم الجغراني (gazetteer)‏ من قوائم كالمدن والمؤسسات وأيام الأسبوع 
وما إلى ذلك. لا تقتصر القوائم على الكيانات فحسب» بل تشمل أيضًا أسماء ا لمؤؤشرات 
المفيدة كتسميات الشركات المعتادة (مثال: «محدودة»)» والعنوانات وما إلى ذلك. Jå‏ 
قوائم المعاجم الخغرافية Ee y‏ إلى آلات ULI‏ المنتهية «(finite state machines)‏ التي 
يمكن أن تتطابق مع الوحدات اللغوية النصية. في الوقت الحالي» تعيد أداة TwitlE‏ 
ee‏ د 55 الجغرافية من دون إجراء أي تعديل. 

أداة تقسيم الجمل هي عبارة عن سلسلة تعاقبية مكونة من حولات طاقة متتهية 
الحالات (finite-state transducers)‏ تقوم بتجزئة النص Je d‏ هذه الوحدة 
ضرورية اضف أقسام الكلام. مرة أخرى» يعاد استخدام مة مقسّم الجمل الخاص 
بمنصة ANNIE‏ من دون إجراء تعديل» على الرغم من أنه عند معالجة التغريدات» 
يمكن استخدام نص التغريدة كجملة واحدة فقط من دون إجراء المزيد من التحليل. 

يعد معيد النضن إلى شكله القاس في آداة TWE‏ في الرقت d‏ مرا بين 
قاموس عام لتصحيح الأخطاء الإملائية وقاموس آخر لتصحيح الأخطاء الإملائية 
خاص بوسائل التواصل الاجتاعية. يحتوي القاموس الأخير على مُدخلات (entries)‏ 
من قبيل (moro?‏ و)6:6»» (e‏ هو الحال في دراسة (هان وآخرون) [250]. 

يضم مُصنّف أقسام الكلام نموذجًا معدلاً لصتف أقسام الكلام الخاص بمنصة 
Stanford‏ وهو مدرب على التغريدات المصنفة في مكنز .Penn Treebank‏ أضيفت 
بطاقات تصنيف إضافية خاصة بالتغريدات المكررة وعنوانات URL‏ وعلامات 
¿hill‏ وإشارات المستخدمين (mentions)‏ كما أعيد تدريب مُصئف Stanford‏ 
لتصنيف أقسام الكلام ]251[ باستخدام بعض التغريدات التي أضيفت إليها الشروح 
يدويًا ]4220 


وكذلك مكنز NPS IRC‏ ]252[ والنصوص الإخبارية (القسم الخاص بجريدة 
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وول ستريت جورنال 3( penn treebank‏ ]253[(. يحقق النموذج الناتج دقة تصل 
إلى TT ١٤١‏ 
glas gll dina dco‏ لعي ki‏ نضمن أفضل مستوى ممكن من الأداءء لا بد من 
تشغيل مَصتف أقسام الكلام الخاص بأداة 1۷11۴ بعد تشغيل حول النص إلى الشكل 
القياسي ومجزئ ا لحمل الموجودين في أداة TwitlE‏ ونظرًا لأنها تدرب في الوقت ا حالي 
على المحتوى الإنجليزي فقط» من الضروري تشغيلها باستخدام التغريدات التي سبق 
تمييزها على Gel‏ مكتوبة باللغة الإنجليزية بواسطة معرّف اللغات في أداة TwitlE‏ 

do‏ تكون وحدة تمييز كيانات الأسماء في أداة 10710158 صيغة معدلة يدويًا 
مقتبسة من أداة تمييز الكيانات Gig‏ للقواعد الخاصة بأداة ANNIE‏ وبفضل تعديل 
أداة ANNIE‏ لملاءمة وسائل التواصل الاجتاعی» تحقق أداة TwitIE‏ دقة مطلقة بنسبة 
تزيد على * 7Y‏ وزيادة في أداء Fl‏ بنسبة * ZY‏ مقارنة بأداة ANNIE‏ 


F ~ 
وحدات استخراج المعلومات‎ DIT 
TwitlE في تظلم‎ (£9 JSON, XML, HTML) 
Y 

المدخلات: a‏ 5 لاحظ: تعبر الصناديق المريعة عن 
عنوان là ON J URL‏ عمليات» بينما تعبر الصناديق الدائرية عن 

فقن = | | معلومات 

"m Il. " x 

تعديد üD‏ يصمة لغوية خاصة مرل التس Xy JE‏ 

I‏ يوسائل التوامل | | wv‏ والتهجلة 


T 
فتعرية‎ JAPE Mi أداة تمييز كاتاك راد‎ Í EE PST ١ 
bunt fe البحث داخل المعجم —— (كليم الاسبوع)‎ 
1 | ull الجغر‎ 


الشكل Y-A‏ : منظومة أداة TWIEIE‏ لاستخراج المعلومات. 
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۳-۳-۸ اكتشاف الأحداث 

يمكن استخدام الكثير من الأشياء كال موضوعات الرائجة لمراقبة الآراء وردود 
الأفعال الدولية» كا يمكن استخدام تحديثات وسائل التواصل الاجتماعي كقناة خلفية 
تدور فيها النقاشات حول الأحداث التي تجري في العالم الحقيقي [254]. وكذلك 
لاكتشاف تلك الأحداث والإبلاغ عنها فور حدوثهًا تقريبًا. في حين قد يبدو للوهلة 
الأولى أن الموضوعات الرائجة وحدها تكفي لإنجاز هذه المهمةء إلا أن هناك عددًا من 
الأسباب التي تجعلها غير كافية: 

العمومية: قد تتناول الموضوعات الرائجة ما يجري من أحداث. إلا أنها قد تشير 
أيضًا إلى المشاهير أو المنتتجات أو coll‏ الإلكترونية .(online memes)‏ 

النطاق: الموضوعات التي تتفاعل معها شريحة عريضة من مستخدمي تويتر يمكن 
أن تظهر ضمن الموضوعات الرائجة دون غيرها. 

الرقابة: يعتقد الكثيرون أن الموضوعات الرائجة المعروضة من قبل خدمة تويتر 
الرسمية تخضع للرقابة السياسية واللغوية. 

الخوارزميات: الأسلوب المستخدم لاختيار الملوضوعات الرائجة لا ينشر في أي 
مكان وليس مفهومًا بصورة عامة. 

إِذَا يطرح التعرف JYI‏ على الأحداث مهمة مثيرة للاهتام فيا يتعلق بتحديثات 
وسائل التواصل الاجتماعي. في حين يمكن الحصول على مجموعة كبيرة من التغريدات 
تكفي للكشف عن الاتجاهات والأحداث الدولية» تظل هناك مشكلة تطوير وتقييم 
خوارزميات قادرة على التعامل مع تحديثات lip‏ الحجم. 

لا تستخدم غالبية منهجيات التعرف على الأحداث الأنطولوجيات أو غيرها من 
مصادر المعلومات الدلالية. هناك فئة من الأساليب التي تطبق عملية التجميع على 
التغريدات [255-257] أو مشاركات المدونات [258]. على سبيل المثال» استخدمت 
دراسة ]259[ منهجية من هذا القبيل لكشف الزلازل في اليابان st.‏ على أساس 
التغريدات التي تتضمن معلومات تحديد المواقع الجغرافية. وبا مئل» جرى التعامل مع 
الكلمات الفردية كإشارات موجية (wavelet signals)‏ من أجل استكشاف cA‏ 
مصطلحات ذات أهمية زمنية [260]. 


ع ولاب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


بمجرد الكشف عن حدث ماني تحديثات وسائل التواصل الاجتماعي» تصبح المشكلة 
التالية وهي كيفية إنتاج عناصر توصيف (descriptors)‏ موضوعية مفيدة خاصة بهذا 
الحدث. جرى في الآونة الأخيرة الجمع بين المعلومات التبادلية النقطية point-wise)‏ 
(mutual information‏ والمعلومات الجغرافية والزمنية الخاصة بالمستخدم» وذلك من 
أجل الحصول على سلاسل ن-جرام (n-gram)‏ لتوصيف الأحداث من التغريدات 
]261[ من خلال جعل الخوارزمية حساسة للموقع «o ME‏ من الممكن رؤية ما 
يتداوله الناس في موقع معين بشأن حدث ما (كالأشخاص المتواجدين في الولايات 
المتحدة)؛ CAS y‏ يختلف ذلك عن التغريدات الأخرى (كالأشخاص الموجودين في 
ال هند). 


يمكن الإشارة إلى مجموعات الأحداث الموجودة في تسلسل أكبر على Vl‏ قصص 
ملاحم (sagas)‏ وقد تكون أحدانًا حقيقية GU‏ بحد ذاتهاء أو قد تكون مكوناتها الفردية 
متناسقة بحد ذاتها. تشير دراسة [135] - التي اقتبست مثال من Ege‏ أكاديمي- إلى أن 
التغريدات قد تشير إلى المؤتمر ككل» أو إلى حدث فرعي محدد مثل العروض التي تجري 
في وقت ومكان معين. باستخدام المعلومات الدلالية الخاصة بالمؤتمر وأحداثه الفرعية 
من شبكة بيانات (Web of Data)‏ تتم مواءمة التغريدات مع تلك الأحداث الفرعية 
بصورة تلقائية» وذلك باستخدام أساليب التعلم الآلي. يشمل هذا الأسلوب مرحلة 
AS‏ المفهوم TON.‏ فيها أداة Zemanta‏ لإضافة مفاهيم قاعدة البيانات DBpedia‏ 
كشروحات إلى كل تغريدة. توصف التغريدات دلاليًّا باستخدام أنطولوجيا SIOC‏ 
وأنطولوجيات الحضور الإلكتروني (Online Presence)‏ (راجع القسم (Y-A‏ 

في الدراسة [245] جرى اقتراح ml Ns cou‏ سد إل الكيانات لكشف 
الأحداث الفرعية التي تستخدم معلومات أساسية جرى إعدادها ds‏ عن الحدث 
(كأساء الفرق واللاعبين في ألعاب الكريكت)» بالإضافة إلى معرفة ذات نطاق 
محدد مأخوذة من موقع ويكيبيديا (كالأحداث الفرعية المتعلقة بالكريكت كالخروج 
من اللعب). علاوة على إضافة هذه المعلومات الدلالية إلى التغريدات كشروحات» 
يستخدم هذا الأسلوب حجم التغريدات (مثلا هو JLH‏ مع أسلوب [262]) وكذلك 
وتيرة نشر التغريدات المكررة كمؤشرات خاصة بالأحداث الفرعية. غير أن وجه 
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القصور في هذه المنهجية Gb‏ من الحاجة للقيام بتدخل يدوي» وهو ما لا يكون عمليًا في 
العادة خارج عدد محدود من مجالات التطبيق. 


٤-۳-۸‏ تمييز المشاعر وتعدين الآراء 

dn‏ وجود مواقع إلكترونية تحظى بالشعبية مكرسة للتقيييات وآراء المستخدمين 
حول المنتجات والخدمات بمنزلة إقرار بأهمية الدافع الموجود لدى الإنسان لنشر ما 
يشعر أو يفكر به على الإنترنت. وبالنظر لكون النوع الأكثر شيوعًا من رسائل AF‏ 
متعلقًا ب»الذات واللحظة» ]263[ فمن المتوقع أن يتحدث المستخدمون عن مزاجهم 
وآرائهم. يجادل (بولين وآخرون) [194] بن المستخدمين يعبرون عن مزاجهم الشخصي 
في تغريدات تتعلق بهم شخصيًا وأيضًا في رسائل ghs‏ بأشخاص آخرين. هناك دراسة 
أخرى [264] تقدر أن Y‏ .7 من رسائل المدونات المصغرة تذكر علامة تجارية معينة» في| 
تحتوي /7١‏ من تلك الرسائل على المشاعر المتعلقة بتلك العلامة التجارية. 


تحمل هذه الأفكار والآراء قيمة عظيمة. على سبيل المثال» يمكن أن تعكس 
عملية التحليل الجماعي لتلك الآراء صورة واضحة عن المزاج العام» وهو ما يتيح 
استكشاف ردود الأفعال على الأحداث العامة الجارية [194] أو ملحوظات على أفراد 
أو حكومات أو منتجات أو خدمات معينة [265]. يمكن استخدام المعلومات الناتجة 
لتحسين الخدمات أو صياغة السياسات العامة أو جني الأرباح من أسواق الأسهم. 

تنطلق شرارة أنشطة المستخدمين على وسائل التواصل الاجتتماعي في الغالب 
بفعل أحداث معينة وما يتصل با من كيانات ola MS)‏ الرياضية والاحتقالات 
والأزمات والمقالات الإخبارية والأشخاص ولمواقع) وموضوعات (كالاحتباس 
الحراري والأزمات المالية وإنفلونزا الخنازير). من أجل تضمين هذه المعلومات» كانت 
هناك حاجة لوجود منهجيات واعية Yo‏ واجتاعيًا. 

هناك العديد من التحديات الكامنة في تطبيق أساليب تعدين الآراء وتحليل المشاعر 
على وسائل التواصل الاجتماعي [266]. يمكن القول: إن المشاركات المصغرة هي 
الأكثر صعوبة من بين أنواع النصوص المختلفة. 
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عندما يتعلق الأمر بتعدين الآراء» وذلك نظرًا لكونها لا تحتوي على الكثير من 
cad Tac aee uo O E‏ يعد الق ا ساب 
لأنه لا يمكننا الاستفادة بسهولة من معلومات L2 WI‏ 8 المشتركة .(coreference)‏ 
فخلافا لمشاركات وتعليقات المدونات» لا يجري ترتيب التغريدات في العادة لتندرج 
تحت موضوعات عادثات» وتظهر بصورة منفصلة جذا عن التغريدات الأخرى. 
تتسم التغريدات أيضًا بتباين لغوي أكبر وتميل إلى أن تكون أقل os‏ بالقواعد النحوية 
مقارنة بالمشاركات الطويلة» ىا تحتوي على قواعد غير تقليدية لكتابة الأحرف الكبيرة» 
ويتكرر فيها استخدام رموز التعبيرات والاختصارات وعلامات الحاشتاغ» وهو ما 
يمكن أن يشكل جزءًا Cae‏ من المعنى. في العادة» تحتوي التغريدات أيضًا على استخدام 
كبير للسخرية والتهكم» وهما من الأشياء التي يصعب على الآلات اكتشافها على وجه 
التحديد. من جهة أخرى» يمكن أن تكون طبيعتها الموجزة مفيدة من ناحية تركيزها 
PRORA UE‏ عدي E E IPLE YN C Ir‏ اكيز 
من موضوع واحدء ما يساعد في إزالة الغموض عن طريق التأكيد على الصلة الظرفية. 

خلافا لبعض أدوات تحليل المشاعر على المستوى المفاهيمي المصممة حديثًا لتحليل 
النصوص» كتقييمات المنتجات والرحلات LS)‏ ناقشنا في القسم /5-7) التي تركز على 
المنهجيات المعتمدة على الخصائص» تستخدم غالبية أساليب تعدين المشاعر والآراء التي 
جرى اختبارها على وسائل التواصل الاجتماعى قدرًا ضئيلاً أو معدومًا من الدلالات. 
de‏ سيل الالء dl cx‏ ]267 268[ التغريدات إلى de qupd etg‏ 
مشاعر إيجابية أو سلبية أو محايدة» وذلك بناءَ على سلاسل ن-جرام (n-grams)‏ 
والمعلومات المتعلقة بأقسام الكلام» في حين تستخدم دراسة ]269[ معجًا ON»‏ 
لإضافة الشروح إلى المشاعر الإيجابية والسلبية بشكل مبدئي في التغريدات ذات الصلة 
بالأحداث السياسية. 

يؤدي استخدام هذا النوع من المعلومات إلى بروز مشكلة تبعثر البيانات. تبيّن دراسة 
(سيف وآخرون) ]133[ أن دقة تصنيف القطبية تتحسن باستخدام المفاهيم AJY‏ 
بدلا من كلمات من قبيل آيفون. تستخدم هذه المنهجية برنامج AlchemyAPI‏ لإضافة 
الشروح الدلالية إلى Y ٠‏ فئة من فئات الكيانات» ومن أكثرها شيوعًا فئات كالأشخاص 


—Y V- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


(Person)‏ والشركات (Company)‏ والمدن (City)‏ والدول Fl a (Country)‏ سسات 
(Organization)‏ . يجري تقييم هذا الأميلوت بواسطة قاعدة بيانات ستانفورد لمشاعر 
التغريدات'» وقد ثبت أن أداءها يتفوق على الأساليب العصرية الخالية من الدلالات» 
با في ذلك أسلوب [268]. 

استخدمت عملية إضافة الشروح الدلالية لغرض إجراء مهام تعدين الآراء الأكثر 
صعوبة. على وجه الخصوص» تحدد دراسة ]270[ هوية الأشخاص والأحزاب 
السياسية والبيانات التي تعرب عن رأي ما في التغريدات باستخدام أداة للتعرف على 
الكيانات استنادًا إلى القواعد» بالإضافة إلى معجم affect?‏ الذي يضم مجموعة من 
الكلمات ذات الصلة بالمشاعر المأخوذة عن قاعدة بيانات WordNet‏ يستخدم التحليل 
الدلالي الذي يجري بعد ذلك أناطًا لتوليد ثلاثيات تمثل أصحاب الآراء ونِيّات 
المصوتين. يجري التعامل مع النفي (Negation)‏ من خلال جمع وتسجيل BEYI‏ 
البسيطة من قبيل «ليس مفيدًا» أو «ليس مثيرًا» واستخدام تلك الأنماط لنفي أحكام 
المشاعر المستخرجة. جرى توسيع نطاق هذا العمل في وقت لاحق عن طريق إضافة 
الدلالات إلى المصطلحات السياسية (المرتبة حسب تسلسل هرمي) وأعضاء oU Jl‏ في 
أداة لتحليل النقاشات التي دارت في تويتر حول الانتخابات البريطانية في عام 10 
]271[ 


Ja; JI 5-7-8‏ بين الوسائط الإعلامية 

إضافة إلى كونها وثيقة الصلة بالأحداث الدائرة في العالم الحقيقي» تعني الطبيعة 
الموجزة لرسائل تويتر وفيسبوك أنه لا يمكن فهم المشاركات القصيرة في الغالب من 
دون الرجوع إلى سياق خارجي. وني حين تحتوي بعض المشاركات (Je Él‏ عنوانات 
URL‏ إلا أن غالبيتها لا تحتوي على تلك الروابط. لذا تكون هناك حاجة لاستخدام 
أساليب لربط الوسائط المختلفة بعضها بعض وإثرائها بالسياق والدلالات بصورة 


1- http://alt.qcri.org/semeval2017/task8/ 
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تربط دراسة (أبيل وآخرون) [134] التغريدات بالتقارير الإخبارية من أجل تحسين 
دقة عملية إضافة الشروح الدلالية إلى التغريدات. في هذه الدراسة» يجري البحث في 
عدد من استراتيجيات ربط التغريدات class JU‏ مثل الاستفادة من عنوانات URL‏ 
الموجودة في التغريدة» وشبه قيمة TF-IDF‏ (تكرار المصطلح/ عكس تكرار المستند) 
بين التغريدة والمقالة الإخبارية وعلامات هاشتاغ وأوجه الشبه المستندة إلى الكيانات 
(يجري التعرف على الكيانات والموضوعات الدلالية بواسطة خدمة «OpenCalais‏ 
حيث تكون أوجه الشبه المستندة إلى الكيانات الأفضل للتغريدات التى لا تتضمن 
عنوانات URL‏ هذه المنهجية شبيهة باستراتيجية الربط المستندة إلى esta‏ المفتاحية 
لمطابقة لقطات الفيديو الإخبارية مع الصفحات الإخبارية الإلكترونية [272]. تذهب 
دراسة [273] خطوة أبعد من ذلك» وذلك من خلال جمع محتوى وسائل التواصل 
الاجتماعي حول التغير المناخي من تويتر ويوتيوب وفيسبوك مع الأخبار على الإنترنت» 
على الرغم من أن تفاصيل الخوارزمية المستخدمة للربط بين الوسائط المختلفة لم تقدم 
في هذه الورقة البحثية. 

توصلت دراسة متعمقة سعت للمقارنة بين أخبار تويتر وجريدة نيو يورك تايمز 
D274]‏ إلى ثلاثة el pl‏ من الموضوعات» وهي الموضوعات المستندة إلى الأحداث» 
والموضوعات المستندة إلى الكيانات» والموضوعات طويلة الأمد. KS‏ يجري تصنيف 
الموضوعات أيضًا إلى فئات مختلفة» بناءً على مجال الموضوع. من بين الفئات التصنيفية» 
هناك تسع فئات مأخوذة من الفئات المستخدمة في جريدة النيويورك تايمز (كالفن 
والعالم والأعمال) بالإضافة إلى فئتين خاصتين بتويتر (الأسرة والحياة» وتويتر). تعد 
فئة الأسرة والحياة الفئة السائدة في تويتر (تسمى فئة (à (OYI Ub‏ دراسة ]263[« 
سواءٌ من حيث عدد التغريدات وعدد المستخدمين. أظهرت المقارنة الآلية المستندة 
إلى الموضوعات أن التغريدات تعج بالموضوعات المستندة إلى الكيانات» وتقل تغطية 
هذا النوع من الموضوعات ES‏ عن غيره من أنواع الموضوعات في وسائل الإعلام 
التقليدية. 

لتجاوز نطاق الأخبار والتغريدات» هناك حاجة لإجراء بحوث في المستقبل حول 
مسألة الربط بين الوسائط المختلفة. على سبيل JEU‏ يقوم بعض المستخدمين بنقل 
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تغريداتهم إلى حساباتهم على فيسبوك» وهناك يستقطب محتوى تغريداتهم تعليقات 
المستخدمين بصورة منفصلة عن أي ردود تتم على التغريدات الأصلية أو أي إعادة 
نشر ها من قبل المستخدمين الآخرين. وبالمثل» يمكن الجمع بين التعليقات الموجودة 
على صفحة مدونة ما والتغريدات التي تتناول تلك الصفحة» وذلك من أجل تكوين 
رؤية أكثر شمولية. 

5-7-8 تحليل الشائعات 

هناك نوع محدد من أنواع التحليل الدلالي لوسائل التواصل الاجتماعي» وهو تحليل 
الشائعات. أظهرت الأبحاث في البداية الضرر الذي يمكن أن يلحقه نشر الشائعات 
المزيفة على المجتمع» وكذلك الانتشار البطيء للتغريدات التي تكشف زيف تلك 
الشائعات ]275 276]. لذا op‏ القدرة على تحديد دقة المعلومات المنشورة على وسائل 
التواصل الاجتاعى تعد مهمة. غير أن عملية التأكد من ضحة الشاتعات عادة ما 
تكون صعبة ]390[ وذلك لأنه لا بد من جمع أكبر عدد ممكن من الآراء والشهادات 
ومعاينتها من أجل التوصل إلى حكم نهائي. تشمل أمثلة الشائعات التي جرى إثبات 
عدم صحتها لاحقاء بعد تداولها على نطاق واسع في البداية» هزة أرضية وقعت في عام 
0 في دولة تشيلي» حيث انتشرت شائعات حول انفجار بركان وصدور تحذيرات 
عن موجات تسونامي في مدينة فالبارايسو على موقع تويتر ]277[ من الأمثلة الأخرى 
أعمال الشغب التي حدثت في إنجلترا في عام 2011( حيث زعمت شائعات كاذبة أن 
مثيري الشغب كانوا ينوون مهاجمة مستشفى برمنغهام للأطفال وأن الحيوانات قد 
هربت من حديقة لندن للحيوانات [278]. 

تتمثل الخطوة الأولى لتحليل الشائعات في اكتشاف التغريدات المتعلقة بالشائعات 
]279 280]. 

من الأعمال المؤثرة الدراسة التى أجراها (ميندوزا وآخرون) ]277[ حيث قاموا 
اجر d‏ يدوي gl V.D‏ موكدة V s‏ انات كاذية UL; e‏ الذي برقم 
في تشيلي في عام e Y Y‏ أن كل شائعة تضمنت نحو ١,٠٠١‏ تغريدة. بعد ذلك 
جرئ تصنيف: التغريدات يدويًا حسب مو قفها تجاه الشائعة: سواء أكان مو قفها IAS ga‏ 
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أم نافيا أم مشككا أم غير معروف أم غير ذي صلة. أظهرت الدراسة أنه قد اتضح 
إنكار نسبة أعلى بكثير من التغريدات المتعلقة بالشائعات الكاذبة للشائعة المعنية )* 7.0 
تقريبًا)» وهو ما يناقض الشائعات التي اتضحت صحتها لاحقاء حيث ل تتجاوز نسبة 
التغريدات النافية للشائعة /٠ Y.‏ فقط. Us‏ على ذلك» ادعى القائمون على الدراسة 
أنه يمكن الكشف عن الشائعات باستخدام التحليل الجمعي للمواقف التي تعكسها 
التغريدات. 

شجع هذا الأمر على إجراء مجموعة ضخمة من الأبحاث في وقت لاحق حول 
تصنيف مواقف الشائعات. من بين المنهجيات الأولى منهجية دراسة (قزوينيان 
وآخرون) [281] التى صئّفت كل تغريدة بصورة آلية على أنها إما تغريدة داعمة أو نافية 
أو مشككة لشائعة مع غير أنهم قرروا الدمج بين التغريدات النافية والتغريدات 
المشككة وإدراجها تحت فئة واحدة» محولين العملية إلى إشكالية تصنيف ثنائي تنقسم 
إلى قسم داعم مقابل قسم ناف أو مشكك. تستخدم دراسة حميديان ودياب ]282[ 
متجهات التغريدات الكامنة (Tweet Latent Vectors)‏ لتقييم قدرة عملية التصنيف 
الثنائى لمواقف التغريدات إلى مواقف داعمة أو نافية لشائعة ما. كا تشير الدراسة إلى أي 
ب يكن استخدام نموذج مدرّب على تغريدات تاريخية لتصنيف تغريدات جديدة 
حول الشائعة نفسها. 

أرجعت أعمال بحثية جرت في الآونة الأخيرة هذا التصنيف إلى التصنيف الثلاثي 
الأكثر واقعية [283]. تشمل المنهجيات البارزة الأخرى منهجية (ليو وآخرون) ]284[ 
الذين استحدثوا أساليب تعتمد على القواعد لتصنيف مواقف التغريدات» ويتفوق أداء 
هذه الأساليب على أداء [281]. وبالمثل» تستخدم دراسة ]279[ التعبيرات النمطية 
(regular expressions)‏ لتصنيف مواقف الشائعات. 


في جميع تلك الحالات» يتمثل التحدي الأكبر في تعميم المنهجية المتبعة لتشمل 
الشائعات الجديدة التي لم تظهر من قبل والتي تختلف عادة عن التغريدات التي يصادفها 
برنامج التصنيف في بيانات التدريب. تجاهلت الأعمال السابقة التمييز بين الشائعات 
القديمة والجديدة وجمعت بين التغريدات المتعلقة بجميع الشائعات باستخدام أسلوب 
التصديق (cross-validation) doo‏ تحدد دراسة أجريت حديثا وتناولت تصنيف 
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مواقف التغريدات تجاه الشائعات ]285[ المشكلة على أنها عبارة عن انتقال أثر التعلم 
«(transfer learning)‏ وقيّمت الشائعات التي d‏ تظهر فقط. تناولت دراسة (زينج 
وآخرون) [286] استخدام ثلاثة مُصئفات Naive Bayes, Random Forest)‏ و 
(Logistic Regression‏ لتصنيف المواقف تجاه الشائعات بصورة آلية على الشائعات 
المخفية» لكنها ركزت فقط على تعريف المشكلة بثنائية الدعم/ النفي. 

يتمثل التحدي الأساسي أمام الباحثين في Jle‏ شائعات وسائل التواصل الاجتماعي 
à‏ عدم وجود قاعدة بيانات ضخمة ومتوفرة على نطاق واسع. هيدف تحدي 2017 
RumourEval‏ إلى التعامل مع هذه PUKA‏ بالإضافة إلى توفير آلية للمقارنة بين 
الوسائل المختلفة الخاصة بالتحقق من صحة الشائعات وتصنيف مواقف الشائعات. 
من بين مجموعات البيانات التي ظهرت مؤخرًا مجموعة بيانات [287]. 


۷-۳-۸ النقاش 

على الرغم من تحقيق بعض الاختراقات بصورة فعلية» إلا أن الأساليب الحالية 
المستخدمة لإضافة الشروح الدلالية إلى تحديثات وسائل التواصل الاجتماعي تحمل 
الكثير من أوجه القصور. في البداية» تتعامل غالبية الأساليب مع المشكلات السطحية 
المتمثلة في استخراج الكلمات المفتاحية والموضوعات» في حين لا تحقق أساليب xd‏ 
الكيانات والأحداث البنية على الأنطولوجيات نتائج ذات دقة وقدرة على الاسترجاع 
أعلى بكثير من النتائج التي يجري الحصول عليها عند التعامل مع الوثائق ذات النصوص 
الطويلة. من بين الطرق المتبعة لتحسين الأداء الآلي السيئ في الوقت الحالي أسلوب 
التعهيد الجماعي (crowdsourcing)‏ على سبيل المثال» يجمع نظام ZenCrowd‏ ]288[ 
بين خوارزميات مستخدمة لربط الكيانات بالمدخلات البشرية على نطاق واسع عبر 
نظام المهام المتناهية الصغر عبر خدمة Amazon Mechanical Turk‏ لإنجاز المهام. 
هذه الطريقةء لا يتم إظهار الإشارات النصية (textual mentions)‏ التي يمكن ربطها 
UT‏ وبمستوى AE‏ مرتفع بالحالات (instances)‏ الموجودة في سحابة البيانات المفتوحة 
المترابطة (LOD Cloud)‏ لمضيفي الشروح الدلالية من البشر. لا تجري استشارة الحالات 


1- http://In.ontotext.com/KIM 
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instances)‏ إلا عندما يكون حلها صعبًّاء وهو ما لا يؤدي إلى تحسين جودة النتائج 
فحسب» بل يحد أيضًا من كمية التدخلات اليدوية المطلوبة. سوف نعود إلى تناول 
موضوع التعهيد الجماعي Ccrowdsourcing)‏ بمزيد من التفصيل في القسم ۲-٠١‏ . 

هناك طريقة أخرى لتحسين عملية إضافة الشروح الدلالية إلى محتوى وسائل 
التواصل الاجتماعي» وهي استخدام المعرفة الضخمة المتوفرة على شبكة البيانات 
(Web of Data)‏ استخدامًا أفضل. في الوقت الحالي» تقتصر تلك المعرفة على 
ويكيبيديا والمصادر المشتقة منها (كقاعدة بيانات .(YAGO s DBpedia‏ من التحديات 
الموجودة هنا تحدي الغموض. على سبيل المثال» تكون عنوانات الأغاني والألبومات 
MusicBrainz (3‏ شديدة الغموضء كما تتضمن كلات شائعة (مثل أمس) وكلمات 
التوقف ©1 (The,‏ [244]. بناءً على ذلك» قد تكون هناك حاجة لإجراء خطوة تصنيف 
(Jf‏ للنطاق (domain)‏ وذلك لضان استخدام مصادر البيانات المفتوحة المترابطة 
(LOD)‏ ذات النطاق المحدد» مثل MusicBrainz‏ من أجل إضافة الشروح الدلالية 
إلى محتوى وسائل التواصل الاجتاعي التي تنتمي إلى النطاق المطابق فقط. من بين 
التحديات الأخرى تحدي الفاعلية والقابلية للتوسيع. في البداية» لا بد من أن تكون 
خوارزميات إضافة الشروح الدلالية فعالة في تعاملها مع اللغة المشوشة وغير المنظمة 
من حيث التركيبة النحوية التي ُستخدم في وسائل التواصل الاجتماعي. GU‏ بالنظر 
إلى حجم شبكة البيانات» فإن مهمة تصميم خوارزميات تستند إلى الأنطولوجيات 
وقادرة على تشغيل قواعد المعرفة الضخمة هذه واستعلام البيانات منهاء مع الحفاظ في 
الوقت ذاته على مستويات عالية من الإنتاجية الحسابية» ليست مهمة بسيطة. 

تكمن العقبة الأخيرة ell‏ استخدام موارد شبكة البيانات (Web of Data)‏ في كون 
المعلومات المعجمية المتاحة محدودة إلى حد بعيد. etas‏ الموارد المستندة إلى ويكيبيدياء 
فإن المعلومات المعجمية في باقى الموارد محدودة في الغالب ببطاقات RDF‏ وهو ما J£‏ 
دوو بسن E‏ ما colla 3i all‏ كراج امات و إضافة 
الشروح الدلالية المستندة إلى الأنطولوجيات. ركزت إحدى مسارات الأبحاث التي 
أجريت في الآونة الأخيرة على استخدام مصادر الويكاموس (Wiktionary)‏ [دمج 
كلمتي ويكي وقاموس] [289] وهي مصادر معجمية متعددة اللغات ومبنية بصورة 
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تعاونية» da p‏ ذات أهمية خاصة لتحليل المحتوى المقدم من قبل المستخدم» وذلك نظرًا 
لكونها تحتوي على الكثير من التعابير الجديدة ويجري تحديثها بصورة متواصلة من قبل 
المساهمين. في اللغتين الإنجليزية والألمانية بالتحديد» يوجد أيضًا أعمال مستمرة حول 
إنشاء مصدر UBY‏ ]290[ - وهو مصدر معجمى — دلالي واسع النطاق یعتمد على 
ويكيبيديا وقاعدة البيانات Wordnet‏ ولذا يعتمد بصورة غير مباشرة على مصادر 
البيانات المفتوحة المترابطة CLOD)‏ الأخرى كذلك. هناك مسار مهم آخر وهو الأعمال 
التى تتعلق بالأنطولوجيات المستندة إلى اللغات ]291[ التى اقترحت نموذجًا أكثر 
تعبيرًا لربط المعلومات اللغوية بعناصر الأنطولوجيات. وفي حين تعد تلك الجهود 
خطوات في الاتجاه الصحيح» ما زالت هناك حاجة للقيام بالمزيد من العمل» ولا سیا 
بخصوص بناء أنظمة متعددة اللغات لإضافة الشروح الدلالية. 

علاوة على ذلك» من البدهي أن تكون جودة أساليب إضافة الشروح الدلالية 
مرهونة ببيانات التدريب والتقييم الخاصة بها. تعد عملية تدريب الخوارزميات على 
مجموعات بيانات وسائل التواصل الاجتماعى ذات المعيار الذهبى محدودة للغاية 
في الوقت الراهن. على سبيل المثال» يقل عدد التغريدات التي أضيفت إليها أنواع 
وأحداث كيانات الأسماء عن ٠١ , ٠٠١‏ تغريدة في الوقت الراهن. لذلك توجد هناك 
حاجة ماسة لمكانز تقييم مشتركة وأكبر حجًا ومكونة من شتى أنواع محتوى وسائل 
التواصل الاجتماعى. تعد عملية إنشاء هذه المكانز عبر المنهجيات اليدوية التقليدية 
لإضافة الشروح الدلالية إلى النصوص باهظة الثمن» إن كان الهدف إنشاء عدد كبير 
من المكانز. ظلت الأبحاث التي تتناول المعايير الذهبية لعملية تقييم التمويل الجماعي 
محدودة» مع التركيز بصورة رئيسة على خدمة Amazon Mechanical Turk‏ للحصول 
على مجموعات بيانات صغيرة (كالتغريدات ذات أنواع كيانات الأسماء) [292]. سوف 
نعود إلى هذا التحدي مرة أخرى في القسم .5-٠١‏ 

في Ute‏ تحليل المشاعر» تناول الباحثون مشكلات اكتشاف قطبية المشاعر وتصنيف 
الموضوعية والتوقع عبر وسائل التواصل الاجتتماعي وتنميط المزاج» غير أن غالبية 
الأساليب تستخدم قدرًا ضئيلاً أو معدومًا من الدلالات. إضافة إلى ذلك» يتسم تقييم 
تعدين الآراء بالصعوبة على وجه التحديد لعدد من الأسباب المنهجية (بالإضافة إلى 
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انعدام مصادر التقييم المشتركة التي سبقت مناقشتها أعلاه). أولآء عادة ما تكون الآراء 
غير موضوعية؛ وليس من الواضح Ela‏ مقصد المؤلف. على سبيل المثال» لا يمكن 
للشخص أن يحدد ما إذا كان تعليق من قبيل «أحب المرأة اللطيفة فلانة»)» عند غياب 


يميل الاتفاق بين مضيفي الشروح في البيانات التي تضاف إليها الشروح يدويًا إلى أن 
يكون متدنيّاء وهو ما يؤثر في موثوقية أي بيانات ذات معيار ذهبي يجري إنتاجها. 

dos‏ تطرح تحديثات وسائل التواصل الاجتماعي Bae‏ من التحديات الإضافية 
العالقة حول أساليب تعدين الآراء والمشاعر: 

الصلة: في وسائل التواصل الاجتماعى» يمكن أن تتشعب النقاشات والتعليقات 
بسرعة إلى موضوعات لا تمت بصلة للموضوع الأصلي» خلاقًا لتقييرات المنتجات التي 
نادرًا ما تحيد عن الموضوع قيد النقاش. 

تحديد الهدف: غالبًا ما يمكن أن يكون هنا عدم تطابق بين موضوع المشاركة المنشورة 
على إحدى وسائل التواصل الاجتاعي» الذي قد لا يكون بالضرورة موضوع المشاعر 
التي تحملها التغريدة. على سبيل المثال» في اليوم التالي لوفاة ويتني هيوستون» عرض 
موقع TwitterSentiment‏ والمواقع المشامهة أن الغالبية العظمى من التغريدات المتعلقة 
بويتني هيوستون كانت سلبية» لكن جميع تلك التغريدات تقريبًا كانت سلبية فقط OM‏ 
الناس كانوا يشعرون بالحزن على وفاتهاء ولیس ee‏ كانوا يكرهونها. 

التقلب بمرور الوقت: بشكل أكثر تحديدًاء يمكن أن تتغير الأفكار بصورة درامية 
بمرور الوقت» من كونها أفكارًا إيجابية إلى أفكار سلبية والعكس. للتعامل مع هذه 
المشكلة» يمكن ربط الأنواع المختلفة للآراء الممكنة باعتبارها خصائص أنطولوجيا 
بالأنواع التي تصف الكيانات والحقائق والأحداث المكتشفة عبر أساليب إضافة 
الشروح الدلالية» وهي شبيهة بتلك الموجودة في [293] التي تهدف إلى التحكم في تطور 
الكيانات بمرور الوقت. يمكن توثيق الآراء والمشاعر المستخرجة Gaj‏ ومن ثمٌ تخزينها 
في قاعدة معرفة يتم تعزيزها باستمرار مع إضافة محتوى وآراء جديدة. هناك إشكالية 
متعلقة بهذا الموضوع» وهي كيف يمكن اكتشاف الآراء المستجدة» بدلا من إضافة 
المعلومات الجديدة إلى رأي موجود مسبقًا للكيان المعني. أيضًا هناك حاجة لتدوين 
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التناقضات والتغييرات واستخدامها لمراقبة الاتجاهات المستجدة بمرور الوقت» ولا 
سيم| عبر تجميع الآراء. 

تجميع الآراء: هناك تحدٌ آخر وهو نوع التجميع الذي يمكن تطبيقه على الآراء. في 
مهمة إضافة الشروح الدلالية المستندة إلى الكيانات» يمكن تطبيق ذلك على المعلومات 
المستخرجة بطريقة سهلة ومباشرة» إذ يمكن دمج البيانات معًا إذا لم يوجد أي تباينات 
فيا بينهاء على سبيل المثال» في يتعلق بخصائ ص كيان من الكيانات. لكن سلوك الآراء 
يختلف هناء حيث يمكن إرفاق عدة آراء OLK‏ واحد وينبغى نمذجتها بصورة منفصلة» 
ونحن نؤيد تعبئة قاعدة معرفة لهذا الغرض. هناك سؤال مهم يتعلق با إذا كان ينبغي 
على الباحث تخزين متوسط الآراء المكتشفة ضمن حيّر زمني محدد (مثل| تفعل الأساليب 
المستخدمة حاليًا لعرض الآراء في صيغة مرئية)» أو ما إذا كان pado‏ استخدام منهجية 
أكثر تفصيلاء مثل نمذجة المصادر وقوة الآراء المتضادة وطبيعة التغير الذي يطرأ عليها 
بمرور الوقت. هناك سؤال مهم آخر في هذا السياق» ويتعلق بإيجاد تجمعات الآراء 
التي يجري التعبير عنها على وسائل التواصل الاجتماعي وفقا للمجموعات والشرائح 
الديموغرافية والأوساط الجغرافية والاجتاعية المؤثرة. 

وعلى هذا النحوء تتطلب الطبيعة الاجتاعية المعتمدة على الرسوم البيانية للتفاعلات 
استخدام أساليب جديدة لتجميع الآراء. 
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توجد العديد من التطبيقات المتنوعة في مجال إضافة الشروح والتعليقات الدلالية» 
ومنها البحث الدلالي» وهو إيجاد المستندات التي يرد فيها ذكر مفهوم/ حالة واحدة أو 
أكثر داخل أنطولوجيا أو بيانات مفتوحة مترابطة» وبناء ناذج المستخدم الاجتاعية 
الدلاليةء بها فيها البيانات الديموغرافية واهتمامات المستخدمين والسلوك الإلكتروني 
ونمذجة المجتمعات الإلكترونية والتجسيد البصري للمعلومات بالاستناد إلى 
الدلالات. تستغل كل هذه التطبيقات cob‏ المراحل السابقة في عملية ible‏ 
النصء ومنها تمييز كيانات الأسماء وربطها واستخراج العلاقات والمصطلحات وتحليل 
المشاعر وغيرها. 

يقدم هذا الفصل كل تطبيق من هذه التطبيقات على حدة» ولن يقتصر الشرح 
على المبادئ الأساسية لكل تطبيق من هذه التطبيقات» بل سيشير أيضًا إلى عددٍ من 
الأمثلة الأساسية المأخوذة من الأدبيات. ثم نختتم الفصل بنقاش للأسئلة المطروحة 
والاتجاهات المستقبلية. 


٠-۹‏ البحث الدلالي 

يعد طرح مقدمة ومراجعة متعمقة للأدبيات الراهنة في Jle‏ البحث الدلالي خارج 
نطاق هذا الكتاب» لكن ينصح القارئ بمراجعة ]294 295[ لزيد من التفاصيل. 
ستقتصر المادة المقدمة في هذه الفقرة على لمحة عامة فقط. 

يعد البحث الدلالي داخل الوثائق مهمة تُعنى بإيجاد معلومات ليس fi‏ على 
مدى توفر كلمات معينة فحسب» بل slo LAT‏ على معنى هذه الكلمات ]1296 297]. 
هذه المهمة هي صيغة معدلة من مهمة استرجاع المعلومات CIR)‏ التقليدية» لكنها 
تختلف في أنه يجري استرجاع المستندات بناءً على مدى صلتها بالمفاهيم الواردة داخل 
الأنطولوجياء بالإضافة إلى الكلمات. غير أن الفرضية الأساسية في كلتا المهمتين 
متطابقة إلى حد بعيد» فما يحدد سات مستند معين هي مجموعة بطاقات التصنيف التي 
تشكل محتوى الوثيقة» بصرف النظر عن هيكلها. وفي حين تعد منهجية استرجاع 
المعلومات الأساسية أن جذور الكلمات هي بطاقات تصنيف» هناك جهودٌ كبيرة بُذلت 
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من أجل استخدام معاني الكلمات أو المفاهيم المعجمية ]298 299[ في عملية الفهرسة 
والاسترجاع. في حالة البحث الدلالي» ما تتم فهرسته عادة يكون مجموعة من الكلمات 
ومفاهيم أنطولوجيا توصل معنى قسم من هذه الكلمات (مثال: كامبريدج هو موقع)» 
وهناك خيار تحديد معنى العلاقات القائمة بين هذه المفاهيم (مثال: كامبريدج توجد 
في المملكة المتحدة) [296]. يتيح المثال الثاني لشخص ما يبحث عن مستندات متعلقة 
بالمملكة المتحدة العثور أيضًا على وثائق تذكر كامبريدج. 

غير أن كلمة كامبريدج (وكذلك العديد من الأسماء والكلمات الأخرى) ها معانٍ 
عدة» أي Ll‏ غامضة. فقد تشير كلمة «كامبريدج» إلى مدينة كامبريدج في المملكة 
المتحدة أو مدينة كامبريدج في ولاية ماساتشوستس الأمريكية أو جامعة كامبريدج 
...الخ. وبالمثل» قد تحمل البطاقات التصنيفية المختلفة المعنى نفسه. مثال» نيويورك 
و«بیج أبل» (التفاحة الكبيرة). لذا يحاول البحث الدلالي تقديم نتائج أكثر دقة وصلة 
للمستخدمين» وذلك باستخدام التعليقات والشروحات الدلالية والمعرفة الخارجية 
s aali‏ عادة في الأنطولوجيات و/ أو مصادر البيانات المفتوحة المترابطة. 

من الناحية العملية» تُستخدم رجات أساليب إضافة الشروحات الدلالية (كالتي 
ورد نقاشها في الفصل الخامس) لتمكين المستخدمين من إيجاد وثائق تذكر حالة 
(class) å s (instance)‏ و/ أو علاقة (relation)‏ واحدة أو أكثر. تدعم بعض منصات 
البحث الدلالي الاستعلامات التي تخلط بين الكلمات المفتاحية التي تكون على شكل 
نص حر والشروحات الدلالية بل وحتى استعلامات لغة «سباركل» XSPARQL)‏ 
تقدم معظم أدوات استرجاع المعلومات أيضًا خاصية تصفح الوثائق» وكذلك قدرات 
تنقيح نتائج البحث. وبسبب إمكانية وجود مئات من التعليقات الدلالية في الوثائق 
(ولا سيما في حال وجود تعليقات دلالية مصاحبة لكل مفهوم يرد ذكره في الوثيقة)» 
فإن عملية استرجاع الشروح الدلالية في مجموعات كبيرة من الوثائق هي عملية شديدة 
الصعوية. 

تختلف عمليات البحث المستندة إلى الشروح عن عمليات استرجاع المعلومات 
التقليدية» وذلك بسبب التمثيل الرسومي الكامن فيها الذي يؤدي إلى تشفير المعلومات 
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المهيكلة عن نطاقات النصوص داخل الوثيقة. تختلف المعلومات المشقرة عن الكلمات 
ونماذج الربط بين الوثائق المستخدمة من طرف جوجل وغيرها من محركات البحث. كا 
تشير العديد من الشروح الدلالية إلى الأنطولوجيات بواسطة معرفات الموارد الموحدة 
(URIs)‏ وفي حين قد تساعد فهارس النصوص الكاملة (full-text‏ المعززة في رفع 
كفاءة عملية الوصول» إلا أن متطلبات تخزين البيانات قد تكون ضخمة جداء وذلك 
مع تنامي عدد العناصر في مجموعات الشروح الدلالية. لذلك جرى البحث عن حلول 
مختلفة ذات كفاءة عليا. 


يكمن وجه الاختلاف الرئيس عن محركات البحث الخاصة بالويب الدلالي» مثل 
محرك Swoogle‏ ]300[ في أن التركيز يكون على عملية إضافة التعليقات» ومن ثم 
استخدامها في عملية إيجاد الوثائقء بدلاً من الاستعلام داخل الأنطولوجيات أو تصفح 
هياكل الأنطولوجيات. وبا مثل» تميل واجهات البحث والتصفح متعدد الأوجه المستند 
إلى الدلالات» /facet | Jis‏ ]301 إلى أن تكون مستندة إلى الأنطولوجيات. JE ea‏ 
واجهات البحث والتصفح متعدد الأوجه المستند إلى الشروحات (راجع KIM‏ أدناه) 
إلى إخفاء الأنطولوجيا ومحاكاة عمليات البحث «التقليدية» متعددة الأوجه المستندة إلى 
سلاسل الكلمات. 

١-1-3‏ ما البحث الدلالي؟ 

لفهم الأنواع المختلفة من مهام ومنهجيات البحث الدلالي» من المفيد أن نضع في 
الاعتبار جانبين» وهما: C)‏ ما يجري البحث عنه و(ب) ما النتائج. سوف نناقش هذين 


الأمرين واحدًا تلو الآخر. 
بخصوص الشيء الذي يجري البحث عنه» هناك ثلاثة أنواع رئيسة من المحتوى التي 


الوثائق: هذا النوع من البحث هو بحث النص الكامل التقليدي» حيث تأتي الردود 
على الاستعلامات بناءً على التوارد المشترك للكلمات في محتوى النص. على سبيل «JUI‏ 
تكون نتيجة استعلام مثل «جامعة كامبريدج) جميع المستندات التي تحنوي على كلمتي 
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كامبريدج و/ أو جامعة في مكان ما. لا يعني ذلك أن النتائج هي مستندات تتعلق 
بتلك الجامعة فقط. هذا النوع من البحث تواجهه مشكلات بخصوص الإجابة على 
الاستعلامات التي تكون من نوع الكيانات» على سبيل JEU‏ ما المدن البريطانية التي 
يكون ade‏ سكانها أقل من ٠٠١, ٠٠١‏ نسمة. 

الأنطولوجيات والمعارف الدلالية الأخرى مثل LOD‏ هذا البحث هو بحث 
داخل بيانات مهيكلة رسمية» يجري التعبير عنها RSD-‏ ]302[ أو OWL‏ [303]» 
وتُخزن في قاعدة بيانات أو مستودع دلالي. ونتيجة لذلك يجري التعبير عن مثل هذا 
النوع من الاستعلامات الرسمية بواسطة لغات استعلام مهيكلة مثل لغة «سباركل» 
(SPARQL)‏ [304] أو لغة الاستعلامات البنيوية OU (SQL)‏ يشار إلى هذا النوع 
من البحث بالبحث الدلالي» وذلك لكونه يستخدم الدلالات وأسلوب الاستنباط 
لإيجاد المعرفة الرسمية (formal knowledge)‏ المطابقة. في هذا الفصل» سوف نشير 
إلى هذا النوع من البحث باسم البحث المستند إلى الأنطولوجيا. يناسب هذا النوع من 
البحث بصفة خاصة الرد على الاستعلامات التي تكون من نوع الكيانات كا مثال الذي 
أوردناه أعلاه. 

المستندات والمعرفة الرسمية كليه|: هذا هو ما يشير إليه هذا الفصل بالبحث الدلالي 
في المستندات» أو البحث متعدد النماذج [297] أو بحث النص الكامل الدلالي [305]. 
يعتمد هذا النوع من البحث على محتوى المستندات والمعرفة الدلالية» وذلك من أجل 
الإجابة على استعلامات من قبيل: «فيضانات في مدن في المملكة المتحدة» أو «فيضانات 
في مناطق تبعد 50 ميلاً عن شيفيلد.» في هذه الحالة» تكون المعلومات المتعلقة بالمدن 
الموجودة في المملكة المتحدة أو التي تقع على بعد *0 ميلاً عن شيفيلد ناتجة عن عملية 
بحث مستندة إلى أنطولوجيا. بعبارة أخرىء يجري البحث هنا داخل محتوى المستند 
ويكون البحث عن الكلمات المفتاحية ومؤشر الكيانات التي تتضمن شروحًا دلالية 
موجودة داخل هذه المستندات» وكذلك المعرفة الرسمية. 
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وفيم| يتعلق بالنتائج التي تنتج عن عمليات البحثء هناك أربعة أنواع رئيسة هي: 

المستندات: تعطي عملية البحث قائمة مصنفة من المستندات» وعادة ما تُعرض هذه 
المستندات بعنواناتهاء مع إمكانية عرض بعض البيانات الوصفية (مثال: المؤلف). هذا 
النوع من البحث عادة ما ينتج عن عمليات بحث النص الكامل» على الرغم من أن 

المستندات + مقتطفات تبرز أهم النتائج: بالإضافة إلى عنوانات المستندات» تعطي 
عملية البحث مجموعة واحدة أو أكثر من المقتطفات, مع إبراز النتائج التي تتطابق مع 
الاستعلام» وذلك في محاولة للتوضيح للمستخدم السبب وراء كون هذه الوثيقة ذات 
صلة باستعلامه. في العادة تقوم أنظمة البحث الدلالي بعرض المستندات المتطابقة مع 
الاستعلام بهذه الطريقة» ومن الأمثلة على تلك الأنظمة نظام KIM‏ ]296[ ونظام 
Mímir‏ ]297[ ونظام Broccoli‏ ]306[. 


تلخيص المعلومات: هذه العملية هي عبارة عن عرض المعرفة الرسمية في صيغة 
يمكن للبشر قراءتهاء وهذه المعلومات ناجمة عن عمليات بحث تستند إلى أنطولوجيا 
عن كيانات. على سبيل المثال» ستكون نتيجة البحث عن «توني Oh‏ داخل محرك 
جوجل عرضًا ملخصًا على يمين الشاشة تظهر فيه عدة صور ومعلومات أساسية؛ مثل 
تاريخ الميلادء وهذه النتائج تود بصورة آلية من التمثيل الرسومي للمعرفة الرسمية 
الخاصة بتلك الصور والحقائق [307]. 

النتائج المهيكلة: عادة ما تعرض عمليات البحث المستندة إلى الأنطولوجيات التي 
تنتج عنها قائمة من الكيانات في صيغة مهيكلة» على سبيل المثال قائمة تضم أسماء مدن 
المملكة المتحدة. راجع على سبيل المثال عمليات البحث”" التي تتم بواسطة نظام KIM‏ 
[296] أو نظام بروكولي [306]. 


-١‏ تتوفر مجموعة من الاستعلامات المقدمة كأمثلة وعدد من مؤشرات Mimir‏ التجريبية لغرض إجراء التجارب على الموقع: 
[http: / /demos.gate.ac.uk /mimir‏ 
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۲-٠-۹‏ لماذا يُستخدم بحث النص الكامل الدلالي؟ 

تثبت الدراسة ]305 أن عمليات بحث النص الكامل الدلالي تعطي نتائج جيدة 
في عمليات البحث المهتمة بالدقة» وذلك عندما تتضمن المستندات الكلمات المفتاحية 
التي تصف حاجة المستخدم. لكن هناك العديد من الحالات التي تكون فيها القدرة 
على استرجاع المعلومات (recall)‏ ذات أهمية قصوى» وتكون هناك حاجة للحصول 
على معرفة ضمنية من أجل الرد على أجزاء من الاستعلام. هناك نوع شائع من هذه 
الاستعلامات» وهو الاستعلام المستند إلى الكيانات» ومن الأمثلة على ذلك «النباتات 
ذات الأوراق القابلة للأكل» [305]. في هذه الحالة» من المرجح ألا يوجد مستند واحد 
يحتوي الإجابة» ىا تشير المستندات عادة إلى أنواع النباتات المحددة بالاسم (مثل 
(C IS s JI‏ بدلا من استخدام مصطلح «نباتات» العام. 

العلوم البيئية هي مثال آخر على المجالات التي تكون فيها حاجة قوية للذهاب خطوة 
أبعد عن عمليات البحث المستندة إلى الكلمات المفتاحية ]308 309]. قامت المكتبة 
البريطانية بإجراء مسح شمل الباحثين في مجال العلوم البيئية» وأجرت SU‏ لأنواع 
احتياجات المعلومات التي واجهوا صعوبة في تلبيتها عبر عمليات البحث بواسطة 
الكلمات المفتاحية [310]. كان المطلب الرئيس يتعلق بالاستعلامات الخاصة بمنطقة 
جغرافية معينة» o‏ فيها البحث المتعلق بالمناطق المجاورة لمنطقة ما (مثال: «مستندات 
تتعلق بالفيضانات في المناطق التي تبعد WE‏ عن شيفيلد») والمواقع الضمنية (مثال: 
يجب أن تكون نتيجة الاستعلام «مستندات تتعلق بالفيضانات في المناطق التي تبعد ٠ه‏ 
ميلاً عن شيفيلد» مستندًا يتعلق بالفيضانات في مدينة إكستر» على الرغم من أن منطقة 
جنوب غرب إنجلترا لم يرد ذكرها صراحة). 

هناك مثال آخر وهو البحث في براءات الاختراع ]295 311[ حيث تكون 
القدرة على استرجاع المعلومات بالغة ue MI‏ وذلك oM‏ الإخفاق في العثور على 
براءات اختراع موجودة مسبقا وذات صلة قد يؤدي إلى الدخول في مرافعات قضائية 
وتكبد خسائر مالية. من الأمثلة التي تدل على المعلومات التي يصعب العثور عليها 
باستخدام الكلمات المفتاحية وحدها عمليات البحث عن إشارات مرجعية إلى أوراق 
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بحثية مقتسبة في قسم محدد من براءة الاختراع» وكذلك عمليات البحث عن القياسات 
والكميات (في براءات الاختراع الكيميائية مثلا). تكون القياسات ذات طبيعة عددية 
بصفة خاصة» وقد تظهر عليها اختلافات كبيرة -فقد يجري التعبير عن القيمة نفسها 
باستخدام أنظمة قياس مختلفة كالبوصات أو السنتيمترات أو المضاعفات المختلفة» 
حتى عند استخدام نظام القياس نفسه كالمليمترات أو السنتيمترات أو الأمتار. 

Y- 3-4‏ استعلامات البحث الدلالية 

نظرًا لضرورة أن تتضمن استعلامات البحث الدلالية كلات دلالية نصية 
واستعلامات شبيهة باستعلامات لغة «سباركل» (SQARQD)‏ داخل الأنطولوجياء 
فعادة ما يشار إليها بالاستعلامات الحجينة. يستخدم نظام Semplore‏ ]312[ على سبيل 
المثال رسوم استعلام رابطة هجينة «(conjunctive hybrid query graphs)‏ تكون 
شبيهة باستعلامات لغة «سباركل» (SQARQL)‏ لكنها معززة بمفهوم «افتراضي» 
يسمى مفهوم الكلمة المفتاحية W‏ هناك منهجية أخرى مشابهة جرى اتباعها في نظام 
Broccoli‏ ]306[ ويوجد مها علاقة (occurs - with»‏ (يحدث (g‏ وتكون قيمتها 
الكلمة المفتاحية في النص الحر. 

يوجد في نظام Mimir‏ ]295[ لغة استعلام أكثر ثرا كا تدعم هذه اللغة إضافة 
الشروح اللغوية إلى البحث. على سبيل المثال» تكون نتيجة الاستعلام «شخص يقول» 
باستخدام نظام Mimir‏ مستندات يوجد داخلها كيانات من نوع «شخص» متبوعة 
بالكلمة المفتاحية «يقول». كما تدعم الاختلافات النحوية في الكلمات المفتاحية (مثال: 
«شخصء. الحذر:قول»)» وهذا ينطبق أيضًا على قيود المسافة (مثال: «(شخص ]0..*[ 
الجذر: قول»)» حيث تتطابق النتيجة مع كلمات يصل عددها إلى 5 كلمات تفصل 
بين المكونين» مثل «سيباستيان جيمس من مجموعة ديكسونس قال»). يجري التعبير 
عن القيود الدلالية الإضافية المبنية على المعرفة المأخوذة من الأنطلوجيا عن طريق 
إضافة استعلام لغة «سباركل» SPARQL‏ على سبيل المثال» يكون هذا الاستعلام 
للمستندات التي تذكر الأشخاص المولودين في مدينة شيفيلد: 


1- http://gate.ac.uk/mimir/ 


—-YYo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————- 5‏ 


(Person spargl = “SELECT "inst 
WHERE { ?inst :birthPlace «http://dbpedia.org/resource/Sheffield» | 


1-8 -£ تحديد الدرجات واسترجاع البيانات حسب الصلة 

في سياق بحث النص الكامل الدلالي» تقترح دراسة [313] إجراء تعديل على 1.101] 
(تكرار النص. عكس تکرار المستند)» su‏ على تکرار ورود (instances) NU‏ من 
الشروح الدلالية في مجموعة المستندات. ىا تجمع بين أوجه الشبه الدلالي مع وجه شبه 
معياري مبنى على الكلمات المفتاحية لإجراء عملية التصنيف» من أجل أخذ الحالات 
التي لا توجد فيها شروح دلالية على درجة كافية من الصلة في الحسبان. 

يدعم إطار عمل بحث النص الكامل الدلالي في نظام Mímir‏ ]295[ وظائف 
تصنيف مختلفة» كا يمكن إدراج وظائف جديدة فيه. بالإضافة إلى 15.104 (تكرار 
النص. عكس تكرار المستند)» يقوم كذلك بتطبيق تصنيف مبني على طول النتائج 
المطابقة للاستعلام وخوارزمية .BM25‏ 

يذهب نظام 0172 خطوة أبعد من ذلك ويستخدم منهجية مبنية على الرسوم البيانية 
لحساب تصنيف نتائج البحث الحجينة [314]. يؤخذ هيكل الرسوم البيانية من المعرفة 
الرسمية الدلالية. 

فيا يتعلق بتصنيف الأشخاص الذي ينتج عبر عمليات البحث داخل قواعد 
المعرفة» تقترح دراسة ]315[ منهجية ObjectRank‏ وهى منهجية مبنية على تصنيف 
الصفحة. 

JYI منصات بحث النص الكامل‎ ٥-١-۹ 

سنورد فيا يلي بعضًا من أهم أطر العمل/ الناذج الأولية في البحث الدلالي» مع 
الإشارة إلى وجود الكثير من أطر العمل أو النماذج الأخرى. 

نظام GoNTogle‏ ]316[ هو نظام بحث يقدم إمكانية البحث بواسطة الكلمات 
المفتاحية أو الدلالات أو بمنهجية هجينة تجمع بين الكلءات المفتاحية والدلالات 
داخل مستندات تتضمن شروحًا دلالية. يقوم البحث الدلالي باستبدال الكلمات 
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المفتاحية بالفئات (classes)‏ الأنطولوجيا. تأي النتائج حسب ورود فئات الأنطولوجيا 
الموجودة في الاستعلام في الشروح الخاصة بمستند معين. أخيرّاء يتكون البحث ال هجين 
من عمليات AND‏ أو 0۸ المنطقية (boolean)‏ المعيارية وتطبق على مجموعات النتائج 
التي يجري توليدها بواسطة بحث بالكلات المفتاحية وبحث دلالي. النوع الوحيد من 
الشروحات المدعومة في هذا النظام هو ربط فئة من فئات الأنطولوجيا بجزء من مستند 
معين. هناك نظام مشابه آخر» وهو نظام Semplore‏ ]312[ الذي يستخدم رسوم 
الاستعلام الهجينة الرابطة» مثل نظام SPARQL‏ لكنها معززة بمفهوم «افتراضي») 
m‏ مفهوم الكلمة المفتاحية -W‏ لكن نظام GoNTogle‏ ونظام Semplore‏ لا 
يدعمان إمكانية البحث في هيكل المستندات» أو إمكانية البحث في أنواع الشروح 
اللغوية الأخرى. 

بدوره يوفر نظام Broccoli‏ ]306[ واجهة مستخدم لإنشاء الاستعلامات» وذلك 
بالجمع بين قيود نصية وقيود دلالية (مشفرة كإشارات للكيانات في النص المدخل» 
بواسطة معرفات موارد موحدة .((URIS)‏ يشفر الارتباط بين النص والدلالات 
بواسطة علاقة occurs-with‏ التي يشار إليها فاكلا وردت الإشارات إلى الكليات 
وكيانات الأنطولوجيات في السياق نفسه. تستخرج السياقات SUUS‏ في زمن الفهرسة 
(indexing time)‏ وتعتمد في الغالب على التحليل السطحي للمستند واستخراج 
علاقات التبعية النحوية. توفر علاقة occurs-with‏ القدرة على الوصول إلى هيكل 
العبارات الكامن في المسند الُدخل. غير أن النظام مصمم ليستخدم فقط هذه العلاقة 
المحددة» لذا من المرجح أن تكون عملية فهرسة المستندات ذات المياكل المختلفة (مثال: 
النبذة المختصرة» الأقسام) صعبة. من ثم لا يوجد دعم لإضافة تعليقات لغوية أكثر 
ثراءً» مثل أقسام الكلام أو الصرف الإعرابي أو البيانات الوصفية الخاصة بالمستند أو 
البحث الهيكلي باستثناء البحث الميكلي المستند إلى التواردات المشتركة داخل السياقات. 
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الشكل ١-9‏ : هيكل منصة .KIM‏ 


كانت منصة KIM‏ (إدارة المعرفة والمعلومات) ]296 317[ من بين أوائل الأنظمة 
التي طبقت البحث الدلالي» سواءً أكان داخل قواعد 1101 المعرفية بواسطة لغة سباركل 
el (SPARQL»‏ داخل محتوى المستندات التي تتضمن الشروحات الدلالية» با في ذلك 
الاستعلامات الهجينة التي تخلط بين الكلمات المفتاحية والقيود الدلالية. يوجد في منصة 
KIM‏ عدد من واجهات المستخدم الخاصة بالبحث الدلالي والتصفح» ويمكن تكييفها 
بسهولة لتتناسب مع تطبيقات محددة. هذا النظام متوفر للاستخدامات البحثية عبر 
الرايط .http: / /www.ontotext.com /kim /getting-started /download‏ 

منصة KIM‏ هى منصة قابلة للتمديد لإدارة المعرفة» حيث توفر أدوات لإضافة 
الشروحات الدلالية والفهرسة وإجراء عمليات البحث استنادًا إلى الدلالات 
(يشار إليها باسم البحث متعدد الجوانب في منصة (KIM‏ يظهر الشكل رقم 9-1 
هيكل منصة KIM‏ التي تتضمن كذلك جامع بيانات الويب ge (web crawler)‏ 
المحتوى» ووحدة استخراج المعرفة وتحويلها وتحميلها (ETL)‏ تكون بمنزلة رابط يربط 
بموسوعات المفردات والقواميس وموارد LOD‏ إضافة إلى مجموعة من واجهات 
المستخدم مبنية على شبكة الإنترنت لإجراء عمليات البحث باستخدام الكيانات أو 
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الدلالات (راجع القسم ٠-١-۹‏ لمعرفة تفاصيل البحث متعدد الجوانب باستخدام 
منصة (KIM‏ 

تعتمد إضافة الشروحات الدلالية في منصة KIM‏ على أدوات معالجة اللغات 
الطبيعية في منصة -GATE‏ يتمثل جوهر عملية إضافة الشروحات الدلالية في منصة 
KIM‏ على التعرف على كيانات الأسماء ذات الصلة بأنطولوجيا KIM‏ تحمل جميع 
حالات الكيانات cb‏ فريدة تسمح بربط الشروحات بنوع الكيان والشخص 
الخاد قاغدة االات مس ر نات جدينة للكانات الخديدة AP)‏ المحروقة 
سابقًا)» وبعدها تضاف أوصاف محدودة إلى المستودع الدلالي. تحفظ الشروحات 
بصورة منفصلة عن المحتوى» وتقدم واجهة برمجة تطبيقات (APD‏ لإدارتها. 

يمكن لمنصة KIM‏ كذلك استخدام أنطولوجيات البيانات المترابطة لغرض إضافة 
التعليقات الدلالية وإجراء الأبحاث الدلالية. في الوقت الحالي» جرى اختبارها مع 
قواعد من بينها Freebase Musicbrainz ; Wordnet, Geonames ; DBPedia‏ 
Lingvoj s UMBEL ;‏ وكتاب حقائق العالم الذي تصدره وكالة المخابرات الأمريكية. 
تُعالج مجموعات البيانات هذه بصورة مسبقة JAS y‏ لإنشاء مجموعة بيانات متكاملة 
تضم نحو ١”‏ مليار عبارة صريحة. ue Ê‏ أيضًا عملية التسلسل الأمامي forward-)‏ 
8 لبلورة ۸ , * مليار عبارة ضمنية إضافية. 

Mimi GATE‏ ]295[ هو إطار عمل متكامل لإجراء عمليات البحث الدلالي» 
لخاصة بالمستندات والشروحات اللغوية وأي قواعد معرفة مترابطة خارجية. كا يدعم 
الاستعلامات الهجينة التي تمزج بصورة عشوائية بين النص الكامل والقيود EIKAI‏ 
واللغوية والدلالية. هناك ميزة أساسية تميزه عن الأعمال السابقة» وهى معاملات 
الاحتواء (containment operators)‏ التى تسمح بإنشاء قيود النص الكامل والقيود 
الميكلية والدلالية بمرونة» وجعل هذه القيود متداخلة. 


1 http:;//gate.ac.uk/projects/envilod 
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يبين الشكل ۲-۹ واجهة المستخدم الخاصة بالاستعلامات الدلالية في نظام -Mímir‏ 
يتمثل ال هدف في العثور على مستندات يرد فيها ذكر مواقع في المملكة المتحدة تكون 
فيها الكثافة السكانية أكثر من 5٠٠‏ شخص في الكيلومتر الواحد. تأتي المعرفة بالكثافة 
السكانية من DBpedia iseli‏ تكون المستندات التى يجري البحث فيها بيانات وصفية 
للتقارير الحكومية الخاصة بالتغير المناخي والفيضانات أنشأتها المكتبة الريطانية كجزء 
من مشروع  EnviLOD‏ . 

يتمثل المفهوم العام الذي يقوم عليه نظام Mimir‏ في أن مجموعة المستندات تُعالج 
بواسطة خوازرميات معالحة اللغات الطبيعية» وعادة ما تتضمن عملية المعالحة إضافة 
الشروحات الدلالية باستخدام البيانات المترابطة المفتوحة التي يتم الوصول إليها 
عبر إحدى قواعد كيانات البيانات الثلاثية «(triplestore)‏ مثل OWLIM‏ ]318[ 
أو Sesame‏ بعدها تجري فهرسة المستندات التي أضيفت إليها الشروحات في نظام 
Mimir‏ إلى جانب محتوى النص الكامل الخاص بها والبيانات الوصفية الخاصة 
با مستئد وعلامات هيكل Jul‏ (يمكن اكتشاف علامات هيكل المستند بشكل di‏ 
بواسطة أدوات معالجحة اللغات الطبيعية). أثناء إجراء البحثء تستخدم قاعدة كيانات 
البيانات الثلاثية كمصدر للمعرفة الضمنية» وذلك للمساعدة في الإجابة عن الأبحاث 
المجينة التي تجمع بين النص الكامل والقيود الميكلية والدلالية. ai‏ القيود الدلالية 
باستخدام استعلام لغة «سباركل» ghi  (SPARQL)‏ على قاعدة كيانات البيانات 


يستخدم نظام Mimir‏ فهارس مقلوبة لفهرسة محتوى المستند (o)‏ في ذلك المعلومات 
اللغوية الإضافية كأقسام الكلام أو الجذور الإعرابية)» وللربط بين حالات الشروحات 
مع الموقع الذي توجد فيه داخل النص المدخل. الفهرس المقلوب المستخدم في نظام 
Mimir‏ مبني على محرك MGH‏ ]319[ إضافة إلى نص الوثيقة» النوع الرئيس الآخر 
من البيانات هو الشروحات الميكلية والشروحات المولدة بواسطة مهام معالجة اللغات 
الطبيعية. في نظام Mimir‏ يوجد تثيل لكلا النوعين داخل هيكل البيانات نفسه» 


http://exopatent.ontotext.com se متاحة أون لاين‎ -١ 
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ويتألف من موقع بدء وموقع cile‏ ونوع الشرح (مثال: موقع) ومجموعة اختيارية من 

نظام Mimir‏ قابل للتوسيع بشكل كبير» ففي أحد التطبيقات جرت فهرسة 150 
مليون صفحة ويب (cem‏ باستخدام مئتى عنصر كبير لأمازون Amazon) EC2‏ 
(EC2 Large Instances‏ والتي ظلت تعمل لمدة أسبوع من أجل توليد فهرسة موحدة 
]293[. نظرًا لكون نظام Mímir‏ يعمل بواسطة منصة GateCloud.net‏ لمعالحة 
النصوص ]320[ فإن عملية بناء الفهارس الدلالية في سحابة أمازون هى عملية سهلة. 


Searching Index "bl-geo-metradata-15102012 


"wr wnes‏ امات كود LOCEBOP CDCI OS ORDA‏ معت 
e tyre Coury Aast PEDARA < TERI » 500]‏ 


Search 


metallóixmi 0008D 
Lambeum catthmeett, Berkshire UK. Chalk catcbments in Berkshire (UK). Lambour catchments, Berkshire UK Arce 


metall172.m! 000C9 


806). $toke-on Trent (n = in Covesiry and Stoke-on-Trent) ro groaser 


meta7585.xmv 01543 


Upper Thames n Berkshire, UK, 


meta5901.xmi 01182 
Lambourn, Berkshire. UK ( 


meta2247 xml 00573 
mdustal heatlands of Greater Manchester, south Larcaihre 


meta2359 xmi, O0SEF 
Saedsone aquéer of Sowth Yorkshire between January 2002 h 


الشكل 1-9: واجهة المستخدم الخاصة بالبحث الدلالي في نظام Mimir‏ يظهر فيها استعلام رسمي 
والوثائق المسترجعة ومقتطفات نصية قصيرة تظهر المواقع المطابقة للاستعلام بالخط العريض. 
5-1-4 البحث متعدد الجوانب المستند إلى الأنطو لحيا 
كما سبق أن ناقشناء توجد في نظام ie gat KIM‏ شاملة من واجهات المستخدم 
المستندة إلى متصفحات الويب لإجراء عمليات البحث الدلالية. يشمل ذلك البحث 
المتعدد الجوانب المعتمد على الأنطولوجياء حيث يستطيع المستخدم اختيار حالة واحدة 
أو أكثر (مجسدة في شكل صور بواسطة ملصقات RDF‏ الخاصة بهاء لكن العثور عليها 
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يكون بواسطة مُعرّفات الموارد الموحدة (URIS)‏ الخاصة بها) والحصول على مستندات 
ترد فيها بشكل مشترك. كا يدعم النظام العرض بالخط الزمني أو بشكل متمحور حول 
الكيانات. 

أموكسيسلين وجينتمايسين. هذا ا مال مأخوذ من النسخة الإلكترونية التجريبية لنظام 
KIM”‏ في CExoPatent‏ التي تستخدم كتاب إدارة الغذاء والدواء الأصفر (يضم 
YY, rre‏ دواء حاصل على براءة اختراع) ونظام اللغة الطبية الموحد UMLS)‏ -قاعدة 
بيانات مؤلفة من YV* , ٠٠١‏ مصطلح طبي) لإضافة المعلومات الدلالية كشروحات 
إلى المستندات. تعمل النسخة التجريبية على مجموعة صغيرة من براءات الاختراع يصل 
عددها إلى .5٠ , ٠٠١‏ يدعم نظام ExoPatent‏ البحث الدلالي عن الأمراض وأسماء 
الأدوية وأعضاء الجسم والإشارات إلى الأدبيات وبراءات الاختراع الأخرى والقيم 
العددية والنطاقات. 
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الشكل — Y‏ واجهة المستخدم الخاصة بالبحث المتعدد الجوانب المستند إلى الكيانات في نظام KIM‏ 


l- http://ideya.eu.com/reports.html 
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في واجهة المستخدم الخاصة بالبحث المتعدد الجوانب» يجري تحديث ade‏ المستندات 
المطابقة بصورة ديناميكية بالتزامن مع اختيار الكيانات الجديدة كقيود (انظر العمود على 
يسار الشكل). كما يمكن LAE‏ قيود الكلمات المفتاحية الاختيارية داخل حقل الفلتر 
الموجود على اليسار. في أسفل الشكل» يمكن رؤية عنوانات المستندات المسترجعة 
وبعض المحتويات ذات الصلة الموجودة فيها. عنوانات المستندات قابلة للضغط من 
أجل الاطلاع على المحتوى الكامل في المستند والتعليقات الدلالية داخله. يجري أيضًا 
تحديث الكيانات/ المصطلحات المدرجة في عمود الكيانات (اسم الدواء والمكونات 
وصاحب الطلب ومفهوم نظام اللغة الطبية الموحد) لإظهار الكيانات المتواردة بشكل 
مشترك مع قيود الكيانات المختارة مسبقًا فقط. 

يوجد في نظام Broccoli‏ المذكور Úle‏ واجهة مستخدم تفاعلية مشابهة لإنشاء 
الاستعلامات» حيث يجري تحديثها بصورة آلية بالتزامن مع كتابة المستخدم المفاهيم أو 
لكلمات المفتاحية التي يرغب في البحث عنها. تكون المستندات التي يجري البحث فيها 
مقالات ويكيبيديا مفهرسة بواسطة الفئات (classes)‏ والحالات (instances)‏ المأخوذة 
من أنطولوجيا -YAGO‏ يبين الشكل £78 استعلامًا يقدم كمثال للمستندات التي تذكر 
المدن البريطانية التي تتضمن LAT‏ الكلمة المفتاحية «فيضان». يعرض الاستعلام الدلالي 
كرسم بياني في القسم العلوي» وهو ما يجعل العلاقات القائمة بين المفاهيم التي يجري 
البحث عنها صريحة. تمتلك الكلمات المفتاحية علاقة خاصة هي «occurs-with? Ae‏ 
في حين تأت جميع العلاقات الدلالية الأخرى من أنطولوجيا YAGO‏ مع بدء المستخدم 
كتابة مصطلح استعلام (مثال: مدينة)» يجري تحديث قوائم الفئات (classes)‏ والحالات 
Cinstances)‏ والعلاقات (relations)‏ المطابقة الموجودة على اليسار بصورة ديناميكية. 
بعد اختيار مصطلح استعلام» لا يجري عرض سوى العلاقات المنطبقة على هذه الفئة في 
قائمة العلاقات المحتملة. بسبب الاستعلامات المتمركزة حول الكيانات» تجري هيكلة 
قائمة النتائج كقائمة كيانات» حيث تقدم معلومات ذات صلة من أنطولوجيا YAGO‏ 
لكل كيان يجري عرضه. وكذلك وثائق من موسوعة ويكيبيديا عن هذا الكيان تحتوي 
كذلك على الكلمة/ الكلمات المفتاحية المعطاة. 
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الشكل 5-9 : واجهة Broccoli‏ التفاعلية لإنشاء الاستعلامات. 

7-١-4‏ واجهات البحث الدلالي المستندة إلى النماذج 

إحدى التحديات التي تواجهها واجهات البحث الدلالي» ولا ees‏ الحالات ذات 
الموضوعات المحددة» هو توضيح ما يمكن البحث عنه للمستخدمين. تجعل واجهات 
البحث المستندة إلى النماذج هذا الأمر صريحاء وذلك بصورة تشبه واجهات المستخدم 
متعددة الجوانب التي ورد نقاشها أعلاه. 

يظهر مثال للواجهات المستندة إلى النماذج في الشكل ٥-۹‏ من واجهة EnviLOD‏ 
UI‏ ]308[ التي جرى تطويرها كواجهة أمامية سهلة الاستخدام لإجراء عمليات 
البحث الدلالي لفهرس Mimir‏ يضم مستندات ومصطلحات وكيانات LOD‏ في جال 
العلوم البيئية. 

هناك حقل للكلمات المفتاحية» تكمّله قيود اختيارية لإجراء البحث الدلالي» عبر 
مجموعة من القوائم المنسدلة المعتمد بعضها على بعض. في القائمة الأولى» يستطيع 
المستخدمون البحث عن أنواع كيانات معينة (المواقع» المؤسسات» الأشخاص» 
الأنبار» التواريخ)» ويمكنهم كذلك تحديد القيود في الخصائص على مستوى المستند. 
يمكن كذلك إضافة أكثر من قيد دلالي واحد» وذلك بواسطة زر الإضافة» الذي يقوم 
بإضافة خانة جديدة تحت خانة القيود الحالية. 
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على سبيل المثال» في حال اختيار «موقع» كقيد دلالي» يمكن بعدها تحديد قيود 
إضافية عن طريق اختيار قيد خاصية مناسب» كا هو مبين في الشكل. يسمح القيد 
«سكان» للمستخدمين فرض قيود على عدد السكان في المواقع التي يجري البحث عنها. 
يمكن كذلك فرض قيود عددية مشايهة على قيم الارتفاع والطول والكثافة السكانية. 

يمكن كذلك فرض القيود من ناحية اسم الموقع أو البلد الذي ينتمي إليه. فيا 
يتعلق بالخصائص ذات القيم التسلسلية» يجري اختيار كلمة «هو» من القائمة الثالثة 
بدلا من «لا c uh‏ وبعدها يجب أن تكون القيمة Uta‏ جرى تحديذه GLE‏ (مثال: 
أكسفورد)» TM d‏ تؤدي كلمة (contains?‏ [يحتوي على] إلى التطابق مع سلسلة 
فرعية من الحروف» (مثال: يتطابق الاستعلام مع كلمة Oxfordshire‏ كاسم موقع 
يحتوي على كلمة (Oxford‏ بهذه الطريقة» لا يعرض عل المستخدم الذي يبحث عن 
مستندات تذكر المواقع التي تحتوي على اسم يضم كلمة (Oxford?‏ المستندات التي 
تذكر كلمة «04010» بصورة صريحة فحسب» بل أيضًا المستندات التي تذكر كلمة 
Oxfordshire‏ والمواقع الأخرى الموجودة في Oxfordshire‏ (على سبيل المثال: وايثام 
وودز «((Wytham Woods)‏ بانبري .((Banbury)‏ في المثال cae‏ تستخدم المعرفة 
المأخوذة من قاعدتي GeoNames ; DBpedia‏ لتحديد المواقع الأخرى الموجودة في 
«Oxfordshire‏ بالإضافة إلى Oxford‏ 
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الشكل 5-4: واجهة المستخدم الخاصة بالبحث الدلالي في نظام EnviLOD‏ 
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إحدى المشكلات الموجودة في واجهة المستخدم التي تكون على نمط EnviLOD‏ 
كونها تخفي عن المستخدم المعلومات المتعلقة بحالات هذه الفئات التي ترد في مجموعة 
الوثائق المفهرسة (مثال: مقاطعات المملكة المتحدة المذكورة). من المنهجيات المستخدمة 
لتوفير هذا النوع من النظرات العامة على المستندات oe YU‏ على الكيانات» إعداد 
قائمة لجميع الحالات» لكل فئة من الفئات» ك| هو الحال في الواجهتين الموجودتين في 
نظامي Broccoli, KIM‏ . 

هناك خيار بديل» وهو استخدام سحابات البطاقات التصنيفية (tag clouds)‏ 
وغيرها من أساليب تجسيد التواردات المشتركة للكيانات في صيغة مرئية. جرى في 
الآونة الأخيرة إضافة واجهة مستخدم من هذا النوع إلى نظام  «Mímir‏ وتسمى , GATE‏ 
Prospector‏ (راجع الشكل 5-4). يظهر النصف العلوي من واجهة المستخدم فتات 
وحالات الأنطولوجيا (نظام اللغة الطبية الموحد (UMLS)‏ في هذه (JULI‏ وبعدها 
يقوم المستخدم باختيار الفئات والحالات التي يرغب فيها المستخدم. يمكن أيضًا فرض 
قيود إضافية على البحث عبر فلاتر البيانات الوصفية الخاصة بالوثيقة. يُظهر النصف 
العلوي من الصورة الحالات المطابقة (آي المصطلحات في حالة نظام اللغة الطبية 
الموحد (UMLS)‏ بالإضافة إلى عدد المرات التي ترد فيها في مجموعة الوثيقة. تُعرض 
أيضًا سحابة مصطلحات مبنية على أساس التكرار. يمكن حفظ مجموعة المصطلحات/ 
الحالات لاستخدامها com Y‏ على سبيل المثال لتوليد تجسيدات مرئية للتوارد المشترك 
بين الكيانات/ المصطلحات. 
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الشكل 5-4 واجهة المستخدم الخاصة بالبحث الدلالي à‏ باحث نظام .GATE‏ 


يبين الشكل ۷-۹ مثالا للتصور البياني للتوارد المشترك» حيث ترسم نماذج الأمراض 
الأكثر ذكرًا مقابل ناذج مسببات الأمراض الأكثر ذكرًا. تشمل الأمثلة في النطاقات 
الأخرى رسم مصطلحات المشاعر التي ترد بصورة هي الأكثر تكرارًا مع الأحزاب 
السياسية أو السياسيين» في ضوء مجموعة ضخمة من التغريدات المتعلقة بانتخابات 


E Y 


- 


8-1-4 البحث الدلالي في حتوى وسائل التواصل الاجتماعي 

يختلف البحث في حتوى وسائل التواصل الاجتاعي بصورة كبيرة عن البحث في 
شبكة الإنترنت ]321[ بعدد من الطرق المهمة. أولاء يبحث المستخدمون داخل تدفقات 
الرسائلء مثل رسائل تويتر» عن معلومات ذات صلة من الناحية الزمنية» وهم مهتمون 
بالأشخاص أكثر من أي شيء آخر. ثانا نُستخدم عمليات البحث لمراقبة محتوى تويتر 
بمرور الوقت» ويمكن حفظها كجزء من ملفات المستخدمين. ثالثاء تتميز عمليات 
البحث في تويتر بكونها أقصر بكثير» وبأنها تؤدي إلى قدر أكبر من الإثارة الاجتماعية» 
في حين تبحث عمليات البحث في الإنترنت عن الحقائق. بالإضافة إلى قصر الرسالة 
وطبيعتها المشوشة والمعلومات الإضافية المخفية في روابط URL JI‏ وعلامات الهاشتاغ» 
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ob‏ هذه الاختلافات تجعل أساليب البحث التقليدية بواسطة الكلمات المفتاحية دون 
us giall‏ الأمثل عندما تستخدم للبحث في محتوى وسائل التواصل الاجتماعي. 

تظهر مقارنة بين أدوات مراقبة وسائل التواصل الاجتماعى أجريت في أكتوبر 
515 من قبل شركة Vss as Ideya‏ أن هناك ما Y‏ يقل js‏ 5 أداة لمراقبة 
وسائل التواصل الاجتماعيء منها VAV‏ أداة مدفوعة» مع كون بقية الآدوات مجانية أو 
تعمل بنظام يدعى الفريميوم (freemium)‏ غالبية الأدوات المجانية» على الأقلء لا 
تسمح بإجراء التحليل المتعمق والقابل للتخصيص المطلوب من الناحية المثالية. ركزت 
الأبحاث المنشورة بشكل رئيس على التمرينات التي تقوم بإجراء عمليات حسابية بناءً 
على تمييز الموضوع والهوية بواسطة علامات الهاشتاغ والكلمات المفتاحية البسيطة أو 
البيانات الوصفية الخاصة بتويتر المتاحة بسهولة» كاسم المؤلف واللغة وعدد مرات 
إعادة التغريد وما شابه [322-326]. في حين تتضمن بعض من هذه الأساليب أدوات 
أكثر تعقيدًا للقيام بمهام المعالجة اللغوية» لكنها عادة ما تتكون من أدوات بسيطة جاهزة 
لتحليل المشاعر« مثل أداة SentiStrength‏ ]214[ وأداة SentiWordNet‏ ]327[ و/ 
أو أدوات التعرف على الكيانات والموضوعات العمومية الأساسية مثل أداة DBpedia‏ 
Spotlight‏ ]115[ أو أدوات معالجة اللغات الطبيعية الأساسية مفتوحة المصدر مثل 
أداة ANNIE‏ ]328[ ولا يجري تكييفها مع النطاق والمهمة. لذلك سيركز هذا القسم 
على الأعمال التى جرت في الآونة الأخيرة وتناولت البحث الدلالي وتهدف إلى ille‏ 
MES‏ 

أعطى مؤتمر استرجاع المعلومات ٠١١١‏ لراقبة المدونات المصغرة )2011 TREC‏ 
Lj " (Microblog track‏ جديدًا للأبحاث عن طريق توفير مجموعة من موضوعات 
الاستعلامات» ونقطة زمنية» ومكنرًا يضم ٠١‏ مليون تغريدة» منها مجموعة فرعية 
أضيفت إليها شروحات بشكل يدوي لتحديد الصلة كمعيار ذهبي. بالإضافة إلى 
الخصائص المستخدمة على نطاق واسع المستندة إلى الكلمات المفتاحية وخصائص 


l- http://sites.google.com/site/trecmicroblogtrack/ 


https://gate.ac.uk/gep/ s; لزيد من المعلومات»‎ - Y 
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التركيب النحوي للتغريدات (مثال: ما إذا كانت التغريدات تحتوي على علامات 
الماشتاغ)» أجرى (تأو وآخرون) [329] تجربة على الخصائص النحوية المستندة إلى 
الكيانات المولّدة بواسطة أداة DBpedia Spotlight‏ وهو ما يُعطي نتائج أفضل بكثير. 

يقوم نظام 17/3501 ]330[ بتوليد ثلاثيات RDF‏ من التغریدات» Besl‏ على 
البيانات الوصفية المأخوذة من التغريدات نفسهاء بالإضافة إلى الإشارات إلى الكيانات 
وعلامات ال هاشتاغ وروابط URL‏ ]221[ تشقر هذه المعلومات باستخدام مصطلحات 
(FOAF, SIOC) Open Data‏ المعيارية (راجع القسم (Y-A‏ ويمكن بحثها عن طريق 
استعلامات لغة سباركل (SPARQL)‏ يمكن أيضًا الاشتراك في سلسلة من التغريدات 
المطابقة لاستعلام دلالي معقد. مثل المنافسين المذكورين مع منتجي (جهاز آيباد من 
شركة أبل في حالة الاستخدام الخاصة بها). حتى الانتهاء من تأليف هذا الكتاب لم 
vx‏ نظام Twargl‏ بشكل رسميء وهو ما يعني أن فعاليته ودقته لم تؤكد بعد. 
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الشكل ۷-۹: باحث نظام :GATE‏ شاشة عرض التوارد المشترك بين الحالات/ المصطلحات. 

يقترح (أبيل وآخرون) إطار عمل تكيّفي متعدد الجوانب لإجراء عمليات البحث 
لتدفقات وسائل التواصل الاجتماعي ]331[ يستخدم هذا النظام شروحات الكيانات 
الدلالية الموجودة 3( (OpenCalais‏ بالإضافة إلى نموذج مستخدم (راجع القسم 
-Y-A‏ من أجل إنشاء الجوانب (facets)‏ وتصنيفها GY‏ تستخدم عمليات 
البحث بواسطة الكلمات المفتاحية والجوانب (facets)‏ المستندة إلى علامات الحاشتاغ 
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كخطين أساسيين. تُحقق أفضل النتائج عندما تكون الجوانب (facets)‏ ذات طابع 
شخصي وعندما تُصنف وفقا للكيانات التي تكون ذات أهمية بالنسبة للمستخدم 
المعني (كا هو مُسْفْر في نموذج المستخدم المستند إلى الكيانات). يتعين أن تكون عملية 
تصنيف الجوانب (facet)‏ حساسة للسياق الزمني (آي الفرق بين وقت الاستعلام 
والختم الزمني للنشر). 

هناك أيضًا إطار عمل مبني على أساس منصة GATE‏ لتحليل كميات ضخمة من 
محتوى وسائل التواصل الاجتماعي وبحثها. يتكون إطار العمل هذا والذي يعمل 
في الوقت الحقيقي (real time)‏ من مكونات إضافة الشروحات الدلالية التي ورد 
نقاشها في الفصول السابقة» بالإضافة إلى إطار عمل Mimir‏ للبحث الدلالي» ومكون 
يقوم بتجميع النتائج بشكل ديناميكي. يدعم الإطار البحث الاستكشافي وبناء المعنى 
عبر واجهات عرض المعلومات في صيغة صور information visualization)‏ 
8م مثل مقاييس التوارد المشترك (co-occurrence matrices)‏ وسحابات 
المصطلحات (term clouds)‏ وخرائط الأشجار (treemaps)‏ وخرائط كوروبليث 
.(choropleths)‏ كما توجد واجهة تفاعلية للبحث الدلالي مبنية على الباحث 
(Prospector)‏ حيث يستطيع المستخدمون حفظ نتائج استعلامات البحث الدلالي 
ois)‏ و lll‏ هرون الوقت: جرت بر هة وجوه استخدانات غملية لأظار العمل 
في الزمن الحقيقي وعلى نطاق واسع عبر إجراء تحليل لتغريدات سياسيين بريطانيين 
وردود الجمهور العام عليهم خلال الفترة التي سبقت الانتخابات العامة التي جرت 
في المملكة المتحدة في عام 2015 وعبر تحليل أكثر من 55 مليون تغريدة ذات صلة 
بالاستفتاء الذي جرى في المملكة المتحدة في عام 5 ٠ ١‏ حول عضوية البلاد في الاتحاد 
الأوروبي (البريكسيت). 


بإمكان إطار العمل المستند إلى منصة GATE‏ تنفيذ جميع الخطوات في عملية 


النتائج في صيغة صور مرئية. خلال عملية جمع البيانات» يمكن متابعة حسابات 
المستخدمين وعلامات الماشتاغ عبر واجهة ie y‏ تطبيقات «|لحالات/ الفلتر) في تويتر. 
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يؤدي ذلك إلى توليد ملف مكتوب بلغة Baf JSON‏ لإجراء عملية معالجة في وقت 
لاحق. يمكن كذلك تحليل تدفقات التغريدات (اختياريًا) مع وصوها تباعًاء وذلك 
بشكل ul‏ تقريبًاء وتجري فهرسة النتائج لغرض تجميعها والبحث فيها وعرضها في 
صيغة مصورة. تُستخدم مكتبة العميل «205660154» الخاصة بتويتر لإتمام الاتصال 
بواجهة برمجة التطبيقات» مع إمكانية إعادة الاتصال وإجراء عملية التراجع وإعادة 
المحاولة (backoff-and-retry)‏ بصورة آلية. 


في حالة المعالجة غير المباشرة c(non-live processing)‏ تجري معالجة ملف JSON‏ 
باستخدام أداة (GATE Cloud Parallelizer)‏ وهب عبارة عن lal‏ موازاة سحابة 
منصة (GCP) GATE‏ لتشغيل ملفات JSON‏ كمستندات GATE‏ (مستند واحد لكل 
تغريدة) وإضافة الشروحات إليها ومن ثم فهرستها لتمكين إجراء البحث والعرض في 
صيغة الصور في إطار عمل Mimir‏ التابع GATE ial‏ [295]. أداة GCP‏ هي أداة 
مصممة لدعم تنفيذ منظومات مهام GATE‏ باستخدام مجموعات ضخمة تضم ملايين 
المستندات» وباستخدام هيكل هندسي متعدد o ul‏ تحدد مهام أو مجموعات أداة 
GCP‏ باستخدام لغة XML‏ حيث يُوصّف موقع وصيغة الملفات المدخلة» وتطبيق 
5 الذي ينبغي تشغيله» وأنواع المخرجات المطلوبة. تُوفر عدد من أدوات مناولة 
صيغ البيانات المخرجات (مثل (SON; XML‏ لكن جميع المكونات المختلفة هي 
قابلة للتوصيل c(pluggable)‏ لذا يمكن استخدام طرق تنفيذ خاصة إن كانت المهمة 
تتطلب ذلك. تحفظ أداة GCP‏ تقدم كل مجموعة في صيغة XML‏ قابلة للقراءة من قبل 
البشر والآلات. صممت الأداة بصورة تتيح إمكانية إعادة تشغيل مجموعة توجد قيد 
التشغيل بالإعدادات نفسها إن ط رأ عطل عليها لأي سبب من الأسباب» حيث تستأنف 
أداة GCP‏ العمل بصورة آلية من المكان الذي توقفت عنده. 

في الحالات التي يكون من المطلوب إجراء تحليل آني للتدفقات المباشرة» يستخدم 
برنامج تدفقات تويتر لإضافة التغريدات الواردة إلى طابور رسائل. بعدها تقوم عملية 
-١‏ تشير NP Other‏ الحالة الغريبة التي لم يكن فيها الحزب الوطني الاسكتلندي يشغل المقعد البرلماني أو يتنافس عليه 


مرشح من الحزب» لكن مع ذلك كان للحزب أهمية تستحق أن نقوم بمتابعته. تشير (Other MPI‏ إلى نواب برلمانيين 
اخرين ينتمون إلى الأحزاب السياسية الصغيرة الأخرى. 
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منفصلة لإضافة الشروحات الدلالية (أو عدة عمليات) بقراءة الرسائل من الطابور 
وتحليلها ودفع الشروحات والنصوص الناتجة إلى Mimir‏ إن تجاوز معدل التغريدات 
الواردة الطاقة الاستيعابية لجهة المعالجة» GUS‏ حالات إضافية من مستهلك الرسائل 
عبر آلات متعددة لتوسيع نطاق الطاقة الاستيعابية. 

يتكون نظام المعالجة المباشرة من عدة مكونات متايزة: 

مكون الجمع يتلقى التغريدات من موقع تويتر عبر واجهة برمجة التطبيقات (APD)‏ 
8 من ثم يقوم بتمريرها نحو طابور رسائل موثوق. کا يقوم بحفظ ملف 
JSON‏ غير المعالج الذي يحتوي التغريدات في ملفات احتياطية لغرض إجراء المعالحة 
في وقت لاحق إن دعت الحاجة لذلك. 


يستهلك مكون المعالجة التغريدات الموجودة في طابور الرسائل ويقوم بمعالجتها مع 
منظومة التحليل في منصة GATE‏ ويرسل المستندات التي أضيفت إليها التعليقات إلى 
نظام Mímir‏ لغرض الفهرسة. 

يتلقى نظام Mimir‏ التغريدات التي أضيفت إليها التعليقات ويقوم بفهرسة نصها 
وبيانات الشروح» ويجعلها متاحة للبحث بعد تأخير قصير (قابل للتهيئة). 

بمجرد إضافة التعليقات الدلالية إلى التغريدات وتخزينها في نظام Mímir‏ لغرض 
إجراء البحث» باستطاعتنا استخدام الباحث (Prospector)‏ لاستعلام نتائج البحث 
الدلالي وعرضها في صيغة مصورة. في هذا المثال» تحول مجموعتان من التعليقات 
الدلالية (الموضوعات السياسية مقابل الأحزاب السياسية البريطانية في هذه الحالة) 
إلى مصفوفة ثنائية الأبعاد. في حين تعبر شدة لون كل خلية مدى قوة التوارد المشترك. 
يمكن إعادة تنظيم المصفوفة بالضغط على أي خانة أو عمود» وهو ما يؤدي إلى تصنيف 
المحور حسب قوة الارتباط مع العنصر الذي جرى الضغط عليه. هذا المثال يعرض 
الموضوعات العشرة التي جرى التحدث عنها بالصورة الأكثر تكرارًا خلال المرحلة 
التي سبقت الانتخابات البريطانية التي جرت في عام ۲٠٠٠١‏ من قبل أكثر عشر 
مجموعات قامت بنشر تغريدات» حيث تمثل المجموعة الواحدة حزبًا أو فئة سياسية 


-yé Y- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


(عضو أو مر شح » XU‏ 


Mimir al‏ الكامن الذي يحدد الموضوعات التي ذُكرت من قبل كل حزب من 
الأحزاب المشاركة في تغريدات الانتخابات هي كالتالي: 


(DocumentAuthor author party = 
"Green Party”}| OVER 
{Topic theme = “uk economy” { 


تضاف المعلومات المتعلقة بالحزب الذي ينتمي إليه ناشر التغريدات والمصطلحات 
الواردة في كل تغريدة UL‏ من قاعدة بيانات DBpedia‏ أثناء مر حلة إضافة التعليقات 


الدلالية: 
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Europe B‏ 
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NHS .‏ 
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Scotland‏ 
Employment‏ 
Community and society‏ 
Public health‏ 


Media and communications 


الرسم ۸-۹: مصفوفة الباحث (Prospector)‏ للتوارد المشترك بين الموضوع وحزب المرشح. 


-١‏ نحو Y‏ من المستخدمين قاموا Glas‏ بتعبئة معلومات موقعهم داخل حساباتهم مع توفير DSTI‏ الصحيح عبر تحديد 
أقرب مدينة لهم IY £Y]‏ 
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۲-۹ نمذجة المستخدم المستندة إلى الدلالات 

هناك Uie‏ آخر من مجالات تطبيقات بحوث الويب الدلالي التي تستخدم تقنيات 
معالجة اللغات الطبيعية بشكل كبير» وهو مجال النمذجة الدلالية للمستخدمين 
والمجتمعات» ومن الأمثلة على الدراسات التي تتناول ذلك دراستا ]034 332]. نشير 
هنا إلى أن مراجعة نمذجة المستخدم بشكل مفصل لأغراض الويب الدلالي تتجاوز 
نطاق هذا الفصلء لكن ننصح بقراءة دراسة [333]. 

لو تحدثنا بتفصيل أكبر» نمذجة المستخدم (UM)‏ هي مورد معرفة يضم معلومات 
دلالية صريحة عن جوانب مختلفة تتعلق بالمستخدم» وهذه المعلومات متوفرة بصورة 
مسبقة (مأخوذة من البيانات الوصفية في حسابات الفيسبوك (a‏ أو تستنبط تلقائيًا 
من سلوك المستخدم أو من المحتوى المقدم من طرف المستخدمين أو من شبكات 
التواصل الاجتماعي أو غيرها من المصادر. في العادة تستخدم أساليب معالجة اللغات 
الطبيعية كعملية تمبيز كيانات الأسماء وربطها لإتمام المهمة الأخيرة. 

يتمثل الأساس المنطقي الذي تعتمد عليه عملية اشتقاق نموذج المستخدم بناءً على 
الأنطولوجيات بصورة آلية من البيانات الاجتماعية في lel‏ تشكل أساس إدارة المعلومات 
الشخصية (PIM)‏ اعتمادًا على الدلالات وغيرها من التطبيقات المشاءبة. على وجه 
الخصوص. يعود أصل الأعمال المتعلقة بإدارة المعلومات الشخصية إلى الأبحاث التي 
أجريت على سطح المكتب الدلالي الاجتماعي (social semantic desktop)‏ ]334[« 
حيث يجري تحليل المعلومات المأخوذة من جهاز الحاسوب المكتبي الخاص بالمستخدم 
(البريد الإلكتروني أو المستندات مثلاً) بواسطة أساليب معالجة اللغات الطبيعية من 
أجل اشتقاق ناذج المستخدم. 

١-7-9‏ بناء نماذج مستخدم دلالية اجتماعية مأخوذة من الشروح الدلالية 

من بين الأنواع المختلفة لوسائل التواصل الاجتماعي» حظيت فهارس المستخدمين 
(folksonomies)‏ على الأرجح بأكبر قدر من alal‏ الباحثين الذين يقومون بدراسة 
كيفية اشتقاق ناذج دلالية تعبر عن تفاعلات المستخدمين واهتم|ماتهم من المحتوى 


€ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


البيانية الاجتماعية ورسوم التفاعلات» وذلك باستخدام أساليب مأخوذة من تحليل 
الشبكات الاجتتاعية (مثال: [335]). لكننا في هذا القسم مهتمون بالأساليب التي 
تقوم باستكشاف دلالات البطاقات التصنيفية النصية Ya (textual tags)‏ من ذلك 
بها في ذلك علامات الحاشتاغ)» بالإضافة إلى الأبحاث في Jie‏ نمذجة المستخدم 
المستندة إلى الدلالات في وسائل التواصل الاجتماعي. 

حسب أنواع المعلومات الدلالية المستخدمة» يمكن تصنيف الأساليب كالتالي. 


.(Bag of words) )]336[( أكياس الكلمات‎ 

الكيانات التي يُزال عنها الغموض GY‏ كيانات يذكرها المستخدم (مثال: ]134 
337( أو مأخوذة من مستند أطول موجود على شبكة الإنترنت (مثال: [134]). 

الموضوعات: فئات موسوعة ويكيبيديا (مثال: ]1134 338(« أو الموضوعات 
الكامنة (مثال [339]) أو تسلسلات بطاقات التصنيف Xs AE‏ (مثال: [340]). من 
بين الحلول التي تستخدم لنمذجة دلالات بطاقات التصنيف بصورة أكثر صراحة 
تفتيت بطاقات التصنيف وتحويلها إلى قاعدة معلومات WordNet‏ ومن ثم استخدام 
مقاييس شبه دلالية تعتمد على WordNet‏ لاشتقاق الصلة الدلالية لبطاقات فهارس 
المستخدمين (folksonomy)‏ [3411]. 

في العادة يتم تكملة ذلك بمعلومات اجتتماعية ذات طابع كمي أكثر (عدد 
الارتباطات/ المتابعين لدى المستخدم Ies‏ [231]) ومعلومات التفاعلات de)‏ سبيل 
المثال: تكرار نشر المشاركات ]232[ ومعدل عدد المشاركات لكل موضوع [231]). 

اكتشاف المعلومات الديموغرافية للمستخدمين 

تعد مهمة اكتشاف المعلومات الديموغرافية للمستخدمين شديدة الأهمية في بناء 
نهاذج المستخدمين باستخدام محتوى وسائل تواصل اجتماعي يتضمن شروحات 
دلالية. يوجد لدى كل مستخدم من مستخدمي موقع تويتر حساب خاص به يكشف 
بعض التفاصيل عن هويته. تكون حسابات المستخدمين شبه مهيكلة» وتتضمن حقلاً 
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خاضًا بالمعلومات الذاتية واسم المستخدم الكامل وموقعه وصورة خاصة بالحساب 
والتوقيت الزمني ورابط الصفحة الرئيسة (معظم هذه المعلومات اختيارية وغالبًا ما 
تكون فارغة). يمكن الربط بين خصائص المستخدم ومحتوى مشاركاته» على سبيل 
المثال يمكن تحديد الموقع الجغرافي إلى حد ما من اللغة التي يستخدمها الشخص ]342[ 
أو الأحداث التي يُعلق عليها [343]. 

من بين تطبيقات أساليب معالجحة اللغات الطبيعية اشتقاق المعلومات الديموغرافية 
الخاصة بالمستخدمين» عندما لا تكون متاحة بصورة جاهزة في حسابات وسائل التواصل 
الاجتماعي. من بين المهام التي يجري S US‏ بصورة عامة تصنيف المستخدمين إلى ذكور 
أو إناث حسب نصوص تغريداتهم وحقول الوصف الخاصة بهم وأسمائهم؛ كما هو 
الخال مع دراسة [344]. في تلك الدراسة يعرض الباحثون دقة أعلى من معدلات الدقة 
البشرية مقارنة بأداء ie gat‏ من مضيفي الشروحات على موقع „Mechanical Turk‏ 
كما جرى تطوير إطار عام لتصنيف المستخدمين بمقدوره أن يتعلم بصورة تلقائية كيفية 
اكتشاف الانتماءات السياسية والعرقية والمهتمين المتابعين لشركة معينة [345]. 

من الأبعاد المهمة الأخرى تحديد موقع مستخدمي تويتر بصورة تلقائية عبر تحليل 
محتوى مشاركاتهم وحساباتهم الشخصية". تستخدم الأساليب عادة تقنيات معالحة 
اللغات الطبيعية لتحليل المحتوى النصي المقدم من قبل المستخدم واستنباط الموقع 
ا لجغرافي وفقا للخصائصء مثل الإشارات التي تذكر أساء المواقع المحلية ]346[ 
واستخدام اللهجات المحلية. في دراستي B42]‏ 347[ جرى اكتشاف مصطلحات 
ولغات خاصة بمناطق معينة قد تكون ذات صلة بالموقع الجغرافي للمستخدمين بصورة 
تلقائية. صممت دراسة ]348[ منهجية تصنيف تتضمن أيضًا إشارات محددة للأماكن 
القريبة من المستخدم. من مساوئ هذا الأسلوب أن شخصًا ما قد يكتب عن حدث 
عالمي مشهور لا يمت بصلة إلى موقعه الحقيقي. مثال آخر من مساوئ الأسلوب أن 
المستخدمين قد يتخذون خطوات مقصودة لإخفاء موقعهم الحقيقي عن طريق تغيير 


نمط مشاركاتهم أو تجنب الإشارة إلى المعالم المحلية. 


1- http://openprovenance.org 
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استخدام الشروحات الدلالية لاشتقاق اهتمامات المستخدمين 

من مجالات نمذجة المستخدمين المستندة إلى الدلالات التى تجري فيها الأبحاث 
بكثافة اشتقاق اهتمامات المستخدمين الضمنية باستخدام أساليب Lu‏ الكيانات» 
وكذلك ناذج الموضوعات. على سبيل المثال» استخدمت دراسة (أبيل وآخرون) 
[7] أدوات إضافة الشروحات الدلالية لاشتقاق حسابات المستخدمين بصورة آلية 
استنادًا إلى الكيانات والموضوعات. تجري نمذجة الحساب المستند إلى الكيانات والخاص 
بمستخدم معين في شكل مجموعة من الكيانات الموزونة» حيث بحسب وزن كل كيان © 
Ll Co‏ على عدد تغريدات المستخدمين التى تذكر e‏ أو بناءً على تكرار ورود الكيانات 
في التغريدات؛ بالإضافة إلى المقالات الإخبارية ذات الصلة (التي جرى تحديدها في 
خطوة ربط سابقة). C TAS‏ السابات المستندة إلى الموضوعات بطريقة مشامة: لكنها 
تمثل فئات موسوعة ويكيبيديا ذات المستوى المرتفع (كالرياضة والسياسة مثلاً). تحدد 
الكيانات والموضوعات باستخدام برنامج OpenCalais‏ (راجع القسم £70( 

تستخدم دراسة (كابانيبائي وآخرون) ]337[ الشروحات الدلالية بشكل مشابه 
لاشتقاق اهتهامات المستخدمين (الكيانات أو المفاهيم من (DBpedia‏ التي توزن 
حسب قوتها (تسب Es‏ على أساس تكرار الورود). کا تظهر كيف يمكن الدمج بين 
coU (as VI‏ بناءً على المعلومات المستمدة من مختلف وسائل التواصل الاجتماعي (لينكد 
إن وفيسبوك وتويتر). يجري جمع إعجابات فيسبوك والاهتامات المذكورة صراحة 
في لينكد إن وفيسبوك مع معلومات coU (za VE‏ الضمنية المستمدة من التغريدات. 
يُستخدم نموذج (V Open Provenance Model‏ لتتبع أصل الاهتهامات. 

cole متهجية مشامة مبنية عل الكيانات والموضوعات لنمذجة‎ cuo i 
e تعامل‎ .(Twopics Exo [130] المستخدمين من قبل مايكلسون وماکسکاسي‎ 
الكلمات المكتوبة بالأحرف الكبيرة بخلاف كلمات التوقف التي ترد في التغريدات‎ 
ويجري البحث عنها في موسوعة ويكيبيديا (عناوين‎ ce باعتبارها كيانات‎ 
OLII الصفحات ومحتوى المقالات). بعدها تأي خطوة لإزالة الغموض حيث تحدد‎ 


1- http://leafletjs.com/ 
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الموجود في موسوعة ويكيبيديا الذي يكون أفضل كيان مطابق للكيان المحتمل الموجود 
في التغريدة» في ضوء محتوى التغريدة الذي يُستخدم كسياق. لكل كيان يُزال الغموض 
عنه» يجري الحصول على شجرة فرعية لفئات موسوعة ويكيبيديا. في خطوة لاحقة Ag‏ 
لتحديد الموضوع» يجري تحليل جميع أشجار التصنيفات الفرعية لاكتشاف الفئات الأكثر 
تكرارًاء ومن ثم يتم تصنيفها cola S‏ مستخدمين في ملفات المستخدمين المستندة إلى 
الموضوعات. يجادل المؤلفون أيضًا بأن مثل هذه الموضوعات الأكثر عمومية والتي يتم 
توليدها باستخدام تصنيف فئات موسوعة ويكيبيدياء تكون أنسب لعمليات التجميع 
والبحث عن المستخدمين من النماذج المستندة إلى المصطلحات المشتقة بواسطة أساليب 
كيس الكلمات (bag-of-words)‏ أو .LDA‏ 


تسيل سلوك quen‏ 

كما سبق شرحه أعلاه» يعد سلوم المستخدم عاملا مهنا من العوامل المساعدة في فهم 
التفاعلات على وسائل التواصل الاجتماعي. في هذا القسم» نركز في المقام الأول على 
المنهجيات التي تستخدم دلالات مشتقة آلا من أجل تصنيف سلوك المستخدم. 

في حالة المنتديات الإلكترونية» جرى تصنيف أدوار سلوك المستخدم ]349[ 
التالية: نخبوي» ناخر» منضم للحوار» مبادر شعبوي» مشارك شعبوي» داعم» 
قليل الكلام ومُتجَامّل. بالنسبة لأنظمة التصنيف الاجتاعيء قام الباحثون ]350[ 
في موقع تويتر» يجري رسم الدور الأكثر شيوعا بناءً على محتوى التغريدات» ويُصنف 
المستخدمون إلى (eformers?‏ (المغردين الذاتيين ويشكلون ZA‏ من المستخدمين) 
informers? ;‏ (مغردي المعلومات ويشكلون /7١‏ من المستخدمين) [263]. 

من أجل تحديد أدوار سلوك المستخدم في المنتديات الإلكترونية بصورة آلية» قام 
(أنجليتو وآخرون) ]231[ بإنشاء هيكل قواعد بلغة سباركل (SPARQD)‏ ترسم 
ومتوسط ومنخفض). يجري إنشاء هذه المستويات بصورة ديناميكية من تفاعلات 
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تجري نمذجة أدوار المستخدمين وسياقاتهم وتفاعلاتهم بصورة دلالية عبر أنطولوجيا 
سلوك المستخدم (راجع القسم (Y-A‏ وتستخدم لتوقع صحة منتدى إلكتروني معين. 
مالا لم يُستكشف بصورة وافية. قامت دراسة ]237[ بتوليد عبارات مفتاحية 
للمستخدمين بمساعدة وسيلة لنمذجة الموضوعات وأداة PageRank‏ لترتيب 
وأداة PageRank‏ لاكتشاف بطاقات التصنيف الخاصة بالمستخدمين. ينبغى الملاحظة 
أيضًا أنه في حين قطعت دراسة [263] شوطًا Ceo‏ نحو تصنيف سلوك المستخدم ونية 
التغريدات» إلا أن أسلوب الدراسة ليس GI‏ مع عدم وضوح ما إذا كان مكنا تحديد 
الفئات الماثلة بواسطة مصنف. 

۲-۲-۹ النقاش 

عند الحديث عن التغريدات» يمكن فصل coUa‏ المستخدمين المشتقة بصورة 
آلية إلى اهتمامات «عامة» (تستند إلى تغريدات المستخدم حول الوضوعات الرائجة) 
واهتهامات «خاصة بالمستخدم» (موضوعات تحمل طابعًا شخصيًا بصفة كبرى 
كالعمل والهوايات والأصدقاء). هناك حاجة لإجراء مزيد من الدراسات حول التمييز 
بين الاهتمامات العامة (مثال: الأخبار الرائجة) والاهتمامات الخاصة بمستخدم معين 
(مثال: موضوع يتعلق بالعمل أو الموايات أو إشاعة من صديق Cel...‏ بعبارة أخرى» 
علينا تجاوز نطاق استخدام الشروحات الدلالية لتحديد ملفات المستخدمين بصورة 

ترتبط الأشياء التي تعد مهمة بالسبة للستخدم مع pde £d ua aol‏ (راجم 
القسم .)١-۲-۹‏ ولذا يتطلب ذلك استخدام أساليب أكثر تعقيدًا لتحديد أدوار 
المستخدم بصورة آلية بناء على دلالات المشاركات» بالإضافة إلى الوسائل المستخدمة 
حاليًا المبنية في المقام الأول على أناط التفاعلات الكمية. 
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dol‏ هناك سؤال آخر يشكل تحديّاء وهو كيفية تجاوز نطاق الناذج المستندة إلى 
الاهتّامات والشبكات الاجتماعية القائمة على التفاعلات. على سبيل المثال» أظهرت 
دراسة (جينتايل وآخرون) ]351[ كيف يمكن استخلاص خيرات الأشخاص 
من رسائل البريد الإلكتروني التي يتبادلونها بينهم ومن ثم استخدامها لإنشاء 
ملفات مستخدمين تتسم بالديناميكية. بعد ذلك تجري المقارنة بين هذه الملفات من 
أجل اشتقاق شبكة مستخدمين تستند إلى الخبرات بدلا من إنشاء شبكة مستندة إلى 
التفاعلات. يمكن توسيع نطاق منهجية كهذه وتكييفها لتناسب المدونات (مثال: من 
أجل استكشاف المدونات والتوصية بها)» وكذلك مشاركات تبادل البيانات المنشورة 
على موقعي تويتر ولينكد إن. 


۳-۹ التصفية والتوصيات لمشاركات وسائل التواصل الاجتماعي 

أدى الصعود غير المسبوق في حجم محتوى وسائل التواصل الاجتماعي وأهميته 
المتصورة إلى بدء شعور الأفراد بفيض المعلومات .(information overload)‏ في 
سياق استخدام الإنترنت» أشارت الدراسات التي تناولت فيض المعلومات أن وجود 
مستويات عالية من المعلومات يؤدي إلى عدم الفعالية» OM‏ «الشخص ليس بوسعه 
استيعاب جميع مدخلات الاتصال والمعلومات» [352]. 

وعلى هذا النحوء قام باحثون بدراسة الأساليب المستندة إلى الدلالات لتصفية 
معلومات مشاركات وسائل التواصل الاجتماعي والتوصية بمحتواها. وبالنظر لكون 
o dal‏ الزمنية في موقع فيسوبك ذات طابع خاص في معظمهاء فقد ركز القسم الأكبر 
من الأعمال البحثية حتى الآن على موقع تويتر. 

تشكل مشاركات وسائل التواصل الاجتماعي GË‏ من نوع خاص eel‏ وسائل 
التوصية بالمحتوى وتختلف عن الأنواع الأخرى من المستندات/ محتوى الويب» راجع 
دراسة [336]. بداية» ترتبط درجة صلة المحتوى بمدى حداثته» أي أن المحتوى لا 
يكون مثيرًا للاهتيام بعد مرور أيام على حدوثه. GU‏ يعد المستخدمون مستهلكين 
ومنتجين نشطين للمحتوى الاجتماعي» کا آنہم مترابطون بشكل كبير بعضهم ببعض. 
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ثالثاء يتعين على وسائل التوصية بالمحتوى تحقيق التوازن بين تصفية التشويش ودعم 
عنصر الصدفة/ اكتشاف المعرفة. أخيرًاء تختلف الاهتمامات والتفضيلات اختلافا كبيرًا 
من مستخدم لآخرء وهذا يعتمد على حجم مشاركاتهم الشخصية والغرض الذي 
يستخدمون وسائل التواصل الاجتماعي من أجله وطريقة استخدامهم لما (راجع 
القسم ٠-۲-۹‏ حول أدوار المستخدمين)» وسياق المستخدم (مثال: الأجهزة المحمولة 
مقابل الأجهزة اللوحية» العمل مقابل المنزل). 

ركزت دراسة (تشين وآخرون) [336] و(أبيل eT,‏ 5 35310 على تقديم توصيات 
لروابط URL‏ لمستخدمي تويتر لكونها مهمة شائعة من مهام تبادل المعلومات. تعتمد 
منهجية دراسة (تشين وآخرون) على نموذج كيس -الكليات (bag-of-words)‏ 
الخاص باهتمامات المستخدمين» بناءً على تغريدات المستخدم والموضوعات الرائجة 
دوليًا والشبكة الاجتتماعية الخاصة بالمستخدم. تجري نمذجة موضوعات روابط URL‏ 
بصورة ipli‏ كمتجه كلمة (word vector)‏ ويجري حساب توصيات التغريدات 
باستخدام شبه جيب (cosine similarity) elcJl‏ . 

تقوم دراسة (أبيل وآخرون) [353] بتحسين هذه المنهجية باستخدام أدوات إضافة 
الشروحات الدلالية لاشتقاق ناذج اهتمامات المستخدمين المستندة إلى الدلالات (راجع 
القسم ١-5-4‏ لمزيد من التفاصيل). كا آنا تسجل قدرًا أكبر من الدلالات المتعمقة 
عن طريق تحليل دلالات علامات الماشتاغ والردود وكذلك نمذجة الديناميكيات 
الزمنية لاهت|امات المستخدمين. 

في دراسة حديثة أجراها (تشين وآخرون) [354] بتوسيع نطاق عمل الدراسة 
المذكورة أعلاه بالعمل من أجل التوصية بالنقاشات المهمة» أي موضوعات رسائل 
متعددة. Gl‏ الأساس المنطقي التي استندت عليه الدراسة من الاستخدام واسع 
الانتشار لموقعي فيسبوك وتويتر لإجراء النقاشات الاجتماعية d263]‏ إلى جانب 
الصعوبات التي تواجه المستخدمين في تتبع تلك المحادثات بمرور الوقت» ولا سيا 
في موقع تويتر. يجري تصنيف النقاشات بناءًَ على طول النقاش وموضوعه (باستخدام 
نموذج كيس الكلمات كما ذكرنا أعلاه) وقوة الارتباط (تُعطى الأولوية للمحتوى 
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القادم من مستخدمين شديدي الترابط بعضهم ببعضهم). تترك الطبيعة السطحية 
هذه المنهجية مساحة كبيرة لإجراء تحسينات من خلال استخدام الشروحات الدلالية 
وغيرها من أساليب معالجحة اللغات الطبيعية التى ورد نقاشها في هذا الكتاب. 


٠-۹‏ تصفح مشاركات وسائل التواصل الاجتماعي وعرضها بصيغة مرئية 

يكمن التحدي الأكبر في تصفح الوسائل ذات المشاركات الضخمة وعرضها بصيغة 
مرئية في توفير نظرة شمولية ale‏ تكون في صيغة مجمّعة بدرجة مناسبة. في الغالب 
تكون واجهات القوائم المستندة إلى الطوابع الزمنية التي تعرض مشاركات كاملة يجري 
تحديثها بصورة متواصلة (مثال: واجهة الويب المستندة إلى الخط الزمني في موقع تويتر) 
غير عملية» ولا as‏ في تحليل الأحداث ذات الأحجام الكبيرة والتي تحدث بصورة 
متقطعة. على سبيل ا مثال» خلال حفل الزفاف الملكي الذي جرى في عام 2011 تجاوز 
sae‏ التغريدات حاجز المليون. وبالمثل تكون مراقبة الأحداث التى تستمر لمدة طويلة» 
كحملات الانتخابات الرئاسية» في ختلف الوسائل والمواقع PREIS TNR Aal ah‏ 
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الشكل 9-4: منصة Twitris‏ لمراقبة أحداث وسائل التواصل الاجتماعى (http: / /twitris.knoesis.org)‏ 
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تعد سحابات (word clouds) oSI‏ من أبسط التصويرات الرسومية وأكثرها 
استخدامًا. تستخدم هذه السحابات عمومًا مصطلحات مكونة من كلمة واحدة» وهو 
ما قد يصعب تفسيره من دون وجود سياق إضافي. استخدمت سحابات الكليات 
لمساعدة المستخدمين في تصفح مشاركات وسائل التواصل الاجتماعيء بها في ذلك 
محتوى المدونات ]355[ والتغريدات ]261 356]. على سبيل المثال» استخدم (فيلان 
وآخرون) ]357[ سحابات الكلءات لعرض نتائج نظام توصية يستند إلى تويتر. 
بدوره يستخدم نظام إيدي ]358[ سحابات الموضوعات» حيث يعرض موضوعات 
أكثر شمولية في سلسلة تغريدات المستخدم. يجري الجمع بين هذه السحابات وقوائم 
الموضوعات التي تعرض الأشخاص الذين كتبوا تغريدات عن الموضوعات» وكذلك 
مجموعة من التغريدات المثيرة للاهتمام لأعلى الموضوعات تصنيمًا. يشتق نظام Twitris‏ 
(راجع الشكل 4-4( Bae‏ أكبر من العبارات السياقية الأكثر تفصيلاً باستخدام 
3-grams‏ بدلا من uni-grams‏ ]261[. في الآونة الأخيرة. جرى توسيع نطاق 
المفهوم ليشمل سحابات الصور ]254[ 

يكمن العيب الرئيس للتصويرات الرسومية المستندة إلى السحابات في طبيعتها 
الثابتة. لذا فإنها غالبًا ما تدمج مع الخطوط الزمنية التي تظهر تكرارات الكلمات 
المفتاحية/ الموضوعات بمرور الوقت ]260( 273( 358( 359[ بالإضافة إلى أساليب 
اكتشاف الارتفاعات غير العادية في مستويات الشعبية [355]. تستخدم دراسة ]269[ 
خطًا aj‏ متزامتا مع نص بث تلفزيوني سياسي» ما يتيح الانتقال إلى النقاط الرئيسة في 
الفيديو الخاص بالحادثة» وعرض التغريدات المنشورة في تلك الفترة الزمنية. KS‏ يجري 
عرض الشعور العام في خط زمني في كل نقطة في الفيديو» وذلك باستخدام شرائح 
ملونة بسيطة. وبالمثل يستخدم نظام TwitInfo‏ (راجع الشكل ١١-9‏ ]262[( خطا 
C;‏ لعرض نشاط التغريدات أثناء وقوع أحداث حقيقية في العام (مثال: لعبة كرة 
قدم) إلى جانب ode‏ من التغريدات النموذجية المرمزة بالآلوان للإشارة إلى المشاعر. 
تكون بعض هذه التصويرات الرسومية ذات طابع ديناميكيي» أي أنه يجري تحديثها 
مع وصول محتوى جديد (مثال: تيارات الموضوعات ]254[ أشرطة الكلمات المفتاحية 
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المنحدرة ]273[ مناظر المعلومات الديناميكية ]273 أو أشرطة العنوانات التى 
تقارن التغريدات بجانب معايير مختلفة T)‏ هذه الحالة» انقسم ناشرو التغريدات حسب 
دعمهم لحملة مغادرة/ بقاء المملكة المتحدة في الاتحاد الأوروبي» الشكل .)١١-۹‏ 
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الشكل ٠١-9‏ : مراقبة وسائل الإعلام في منصة التغير المناخي 
(http: / /www.ecoresearch.net /climate)‏ 

علاوة على C5‏ تحاول بعض التصويرات الرسومية تسجيل الترابط الدلالي بين 
المىضوعات في مشاركات وسائل التواصل الاجتماعي. على سبيل المثال» يقوم نظام 
BlogScope‏ ]355[ بحساب الارتباطات بين الكلات المفتاحية عن طريق تقدير 
المعلومات المتبادلة لوج من الكلمات المفتاحية باستخدام عينة عشوائية من المستندات. 
هناك مثال آخر وهو التصوير الرسومي لمشهد المعلومات الذي يعرض الشبه بين 
الموضوعات من خلال القرب (spatial proximity) jl‏ (راجع الشكل (O74‏ 
يمكن أيضًا عرض BA‏ بين الموضوعات والمستندات عن طريق التصويرات 
الرسومية الموجهة بالقوة والمستندة إلى الرسوم البيانية ]360[ dl‏ تقترح دراسة 
(آرشامبو وآخرون) ]361[ سحابات بطاقات تصنيف متعددة المستويات من أجل 
تسجيل العلاقات A AM‏ 
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هناك بعد مهم آخر من أبعاد gel cg oll‏ من قبل المستخدم» وهو مكان المنشأ. 
على سبيل «JU‏ يجري إضافة بطاقات تصنيف جغرافية تحمل معلومات خطوط 
العرض/ الطول إلى التخريدات» في حين تحدد الكثير من ملفات المستخدمين على موقعي 
فيسبوك وتويتر وكذلك المدونات مكان المستخدم. وبناءً على ذلك» جرى استكشاف 
التصويرات الرسومية المستندة إلى الخرائط ]1261 262 273( 262[ (انظر أيضًا الرسم 
٠١-9‏ والرسم .)١١-9‏ على سبيل JEL‏ يسمح نظام Twitris‏ ]261[ للمستخدمين 
اختيار دولة معينة من خرائط جوجل ويعرض الموضوعات التي يجري نقاشها في 
وسائل التواصل الاجتاعي من هذه الدولة فقط. يعرض الشكل 9-9 نظام Twitris‏ 
أثناء مراقبة الانتخابات التي جرت في عام ٠١١7‏ في الولايات المتحدة» حيث اخترنا 
مشاهدة الموضوعات ذات الصلة التي يجري نقاشها في وسائل التواصل الاجتماعي 
والتي يكون منشؤها في ولاية كاليفورنيا. عند الضغط على موضوع «أعضاء مجلس 
الشيوخ من النساء)» يجري عرض التغريدات والأخبار ومقالات موسوعة ويكيبيديا 
ذات الصلة. للمقارنة» يعرض الشكل ١١-9‏ الموضوعات التي تحظى بأكبر قدر من 
النقاش المتعلقة بالانتخابات والتي استخرجت من مشاركات على وسائل التواصل 
الاجتماعي يعود أصلها إلى بريطانيا العظمى. وفي حين يوجد تداخل كبير بين الموقعين 
الجغرافيين» لكن الاختلافات تبدو واضحة أيضًا. 
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الشكل ١١-9‏ : نظام 0 متعقبًا إحدى مباريات كرة القدم .C/http: / /twitinfo.csail.mit.edu)‏ 
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من الممكن تجميع التغريدات وعرضها بصيغة رسومية بناءً على موقع وجود ناشر 
التغريدة» بمعنى التحقيق في التباينات الجغرافية بين الملوضوعات المذكورة. يظهر المثال 
المعروض أدناه تصويرات رسومية تستند إلى نظام Mimir‏ وتعرض الموضوعات التي 
يجري الحديث عنها أكثر في مختلف أجزاء البلادء sts‏ على تجميع التغريدات المنشورة 
من قبل مرشحي الانتخابات البريطانية حسب تصنيف أقاليم نظام NUTS‏ لتصنيف 
أقاليم دول الاتحاد الأوربي. يتضمن ذلك إصدار سلسلة من استفسارات Mimir‏ عن 
التغريدات لكل موضوع» من أجل معرفة عدد التغريدات التي تذكر كل موضوع والتي 
كتبها كل عضو في البرلمان يمثل كل إقليم. لا يتم التعبير عن المعلومات المتعلقة بالإقليم 
الذي يمثله عضو البرلمان في التغريدة نفسهاء لكنها تستخدم قاعدتنا المعرفية بمرحلتين: 
الأولى هي إيجاد الدائرة التي يمثلها عضو البرلمان» ومن ثم مطابقة الدائرة مع الإقليم 
المناسب وفقا لتصنيف NUTS‏ يبيّن الشكل 9 -: ١‏ خريطة كوروبليث (choropleth)‏ 
تعرض توزيع تغريدات أعضاء البرلمان التي تناقش اقتصاد المملكة المتحدة (وهو 
الموضوع الأكثر تكرارًا) في التغريدات المنشورة خلال الانتخابات البريطانية العامة 
التي جرت في عام 7٠١١15‏ والتي جرى جمعها في الأسبوع الذي كانت بدايته Y‏ مارس 
Y 0‏ تعد الخريطة Cs a snas‏ ديناميكيًا يعتمد على مكتبة Leaflet‏ » ويقوم نظام 
Mimir‏ بعرض النتائج المجمّعة للاستفسار لكل موضوع وإقليم NUTSI‏ يوجد في 
choropleth‏ قائمة منسدلة يمكن للمستخدم أن يختار منها الو ضوع الذي يبمه» وهو 
ما يؤدي إلى إعادة رسم الخريطة وفقا لذلك. تتوفر نسخ تجريبية choropleth s‏ وشجرة 
خريطة تفاعلية في مجموعة البيانات هذه» وكذلك آمثلة على سحابة الموضوعات 
وتصوير رسومي للمشاعر» بصورة يمكن الاطلاع عليها من خلال هذا الرابط 


.http: / /www.nesta.org.uk /blog /4-visualizationsuk-general-election 
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الشكل Y-A‏ : الموضوعات المختلفة ا مستخرجة بواسطة نظام o Twitris‏ يتعلق ببريطانيا العظمى. 
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الشكل Y-a‏ أشرطة الموضوعات التى تقارن بين التغريدات المنشورة حول تلك الموضوعات من 
قبل داعمى حملتى استفتاء مغادرة الاتحاد الأوروبي أو البقاء فيه. 
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* Scotland 
17.1596 of the tweets about UK 
Economy were made by MPs from 


this region. 
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Leaflet | Statistical Data € Nesta, 2014-2015 

الشكل 4-9 :١‏ خريطة كوروبليث ox (Choropleth)‏ توزيع التغريدات التي تتناول الاقتصاد. 
كما تظهر الآراء والمشاعر بصورة متكررة في واجهات التحليلات المرئية. على سبيل 

(JUI‏ يجمع نظام Media Watch‏ (الشكل ٠١-9‏ [273]) بين سحابات الكلمات 
وقطبية المشاعر المجمعة؛ حيث ثُلوّنَ كل كلمة بإحدى درجات اللون الأحمر (المشاعر 
السلبية بالدرجة الأولى) أو اللون الأخضر (المشاعر الإيجابية بالدرجة الأولى) أو اللون 
الأسود (المشاعر المحايدة). كا يجري تلوين مقتطفات نتائج البحث ومصطلحات 
التصفح المتعددة بألوان تشير إلى المشاعر. كا جمع آخرون بين الترميز بالآلوان استنادًا 
إلى المشاعر والخطوط الزمنية للأحداث ]359[ وقوائم التغريدات (الشكل ١١-9‏ 
[262]) وخرائط المزاج [359]. في العادة يجري عرض المشاعر المجمّعة باستخدام 
الرسوم البيانية الدائرية ]260[ وفي حالة نظام 80 يجري تطبيع الإحصاءات 
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الإجمالية لغرض الا ستدعاء (الرسم ١١-9‏ [262]). 


كا قام الباحثون بالتحقيق تحديدًا في مشكلة تصفح محادثات وسائل التواصل 
الاجتماعي المتعلقة بالأحداث العالمية وتصويرها رسوميًاء مثل الأحدث التي يجري 
بثها على ا هواء [356] ومباريات كرة القدم (الرسم ١١-4‏ [262]) والمؤتمرات ]254[ 
وأحداث الأخبار ]359 362]. هناك عنصر مهم» وهو القدرة على تحديد الأحداث 
الفرعية وجمعها مع الخطوط الزمنية والخرائط والتصويرات الرسومية المستندة إلى 
الموضوعات. 

جرى أيضًا تصميم تصويرات رسومية أخرى للاستفادة من جهة من كون 
مشاركات وسائل التواصل الاجتماعي محتوى ينتجه المستخدمون» وطابعها الاجتماعي 
من جهة أخرى. على سبيل المثال يرسم نظام PeopleSpiral‏ للتصوير الرسومي ]254[ 
مستخدمي تويتر الذين شاركوا في أحد الموضوعات (مثال: نشر التغريدات باستخدام 
علامة هاشتاغ معينة) المنتشرة بصورة متصاعدة» بداية بالمستخدمين الأكثر نشاطا 
و«أصالة». يجري قياس أصالة المستخدم كنسبة بين عدد التغريدات المكتوبة من قبل 
المستخدم مقارنة بالتغريدات المعاد نشرها. بدلا من ذلك يقوم نظام OpinionSpace‏ 
]363[ بتصوير المستخدمين رسوميًا في مساحة ثنائية الأبعادء بناءً على الآراء التي 
عبروا عنها في مجموعة معينة من الموضوعات. تظهر كل نقطة في التصوير الرسومي 
أحد المستخدمين وتعليقه» لذا كلما كانت النقطتان بعضههم) أقرب لبعض كانت آراء 
المستخدمين أكثر شبهًا بعضها ببعض. غير أن التصوير الرسومي المستند إلى النقاط 
بصورة محضة ثبت أنه صعب التفسير من قبل بعض المستخدمين» وذلك eed‏ غير 
قادرين على رؤية المحتوى النصى حتى يقوموا بالضغط على إحدى النقاط. بدلاً من 
ذلك» يقوم نظام ThemeCrowds‏ ]361[ باشتقاق تجميعات هرمية لمستخدمي تويتر 
عبر تجميع الكتل (agglomerative clustering)‏ و يقدّم ملخصًا للتغريدة التي يجري 
إنتاجها من قبل هذه الكتلة» عن طريق سحابات بطاقات تصنيف متعددة المستويات 
(المستوحاة من تصوير شجرة الخريطة الرسومية). تُعرض أحجام التغريدات بمرور 
الوقت بأسلوب مشابه للخط الزمني» وهو ما يسمح LÍ‏ باختيار الفترة الزمنية. 
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5-4 النقاش والأعمال المستقبلية 

أغلب الأبحاث والتوصيات وأساليب التصوير الرسومي تميل إلى استخدام 
معلومات سطحية نصية ومعلومات مستندة إلى التكرار. على سبيل المثال» أظهرت مقارنة 
بين نمذجة الموضوعات الموزونة وفق تكرار المصطلح-عكس تكرار المستند (TF-IDF)‏ 
ونمذجة LDA‏ للموضوعات أن الأولى أكثر تفوقا 2381( 354]. تقترح دراسة ]354[ 
أنه يمكن تحسين هذه النماذج بشكل أكبر عن طريق الدمج بين المعلومات الدلالية. في 
حالة التوصيات التي تحمل الطابع الشخصي» يمكن تحسين هذه النماذج من خلال إضافة 
أدوار سلوك المستخدم» وهو ما يستغل الدلالات الكامنة ومعلومات المستخدم الضمنية 
استغلالاً أفضل» ويؤدي إلى دمج البعد الزمني في الخوارزميات المقترحة. 

يمكن أيضًا تحسين واجهات التصفح والتصوير الرسومي عن طريق أخذ المعرفة 
الدلالية الإضافية عن الكيانات المذكورة في المشاركات في الاعتبار. على سبيل «Jill‏ 
عندما تضاف الشروحات إل الموضوعات بواسطة روابط URI‏ تؤدي إلى مضادر 
LOD‏ مثل DBpedia‏ يمكن أن تدعم الأنطولوجيا الكامنة تصويرات رسومية ذات 
تسلسل هرمي» o‏ في ذلك العلاقات الدلالية. إضافة إلى ذلك» يمكن إثراء عملية 
استكشاف مشاركات وسائل التواصل الاجتماعي من خلال تصويرات رسومية مبنية 
على الموضوعات والكيانات والوقت باستخدام واجهات البحث المتعدد والاستعلام 
الدلالي التي تعتمد على الأنطولوجيات. من الأمثلة على ذلك منصة KIM‏ الدلالية 
الموجهة نحو مجموعات المستندات التي تكون ثابتة إلى حد بعيد ]317[ 

تعد قابلية الخوارزميات للتوسيع ومدى كفاءتها من العناصر ذات الأهمية الخاصة» 
وذلك بسبب سعة نطاق مشاركات وسائل التواصل الاجتماعي وطبيعتها الديناميكية. 
على سبيل «QUI‏ تستغرق منصة Topic Stream‏ التفاعلية 45 ثانية لحساب مليون 
تغريدة و325000 مستخدم مشارك» وهو ما يعد طويلاً li‏ لمعظم سيناريوهات 
الاستخدام [254]. وبا مثل يعد حساب الارتباطات بين الكلمات عن طريق المعلومات 
النقطية التبادلية (pointwise mutual information)‏ باهظ الثمن من الناحية الحسابية 
فيا يتعلق بالمدونات ذات الحجم الكبير [355]. هناك حل يتم استخدامه بصورة 
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متكررة» وهو وضع نافذة متحركة فوق النص (مثال: بين أسبوع واحد وسنة واحدة) 

معظم الأنظمة والمنهجيات التي تم استعراضها هنا ليست قابلة للتوسيع أو التكييف 
بسهولة مع مشكلة جديدة أو مع تصوير رسومي جديد أو مع قدرات إضافة الشروحات 
الدلالية ذات النطاق الواسع. تكمن فائدة الأدوات ذات المصدر المفتوح المعتمدة على 
نظام Gate‏ والتي تستخدم للبحث والتصوير الرسومي الدلالي (نظام Mimir‏ ونظام 
0601 ومنظومة نظام GATE‏ للتحليلات التفاعلية في أنها ذات مصدر مفتوح 
قابل للتوسيع والتمديد. خلال تطبيق هذه الأدوات مؤخرًا في تحليل تغريدات استفتاء 
خروج بريطانيا من الاتحاد الأوروبي (أي محلل البريكستء راجع الشكل 074(« 
كان متوسط عدة التغريدات البومية تحرو 8٠+ «٠+‏ تغريدة يومياء وكاثت ذروة 
عدد التغريدات مليوني تغريدة في يوم التصويت. هذا الأمر تطلّب توفر مكونات عالية 
الآداء لإجراء التحليلات الدلالية والفهرسة والبحث والتصوير الرسومي» وصممت 
تلك المكونات لتحليل ما يصل إلى ٠٠١‏ تغريدة في الثانية الواحدة. 


Linked data 
(DBpedia, NUTS 


Il... 


Data-Driven Visualizations 


الرسم ١5-9‏ : بنية نظام التحليل الدلالي والبحث والتصوير الرسومي لحملة ال)بريكست». 
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لإجراء التحليلات» نستخدم نظام 1۷1۲1۴ التابع GATE ial‏ ]248[ ويتكون 
النظام من أداة تجزئة الوحدات اللغوية وأداة إعادة النص للشكل القياسي وأداة تصنيف 
أقسام الكلام وأداة تمييز كيانات الأسماء. بعد ذلك» أضفنا أداة لتصنيف التغريدات إلى 
تغريدات مغادرة الاتحاد الأوروبي وتغريدات البقاء فيه» وذلك لتحديد ihe‏ موثوق بها 
من التغريدات ذات المواقف غير الملتبسة. بعدها gl‏ دور مكون تحديد الموقع الجغرافي 
للتغريدة» حيث يستخدم بيانات خطوط الطول/ العرض والإقليم وموقع المستخدم 
من أجل تحديد الموقع الجغرافي للتغريدات داخل أقاليم نظام UK NUTS2‏ لتصنيف 
أقاليم المملكة المتحدة. جرى اكتشاف الموضوعات الرئيسة التي نوقشت في التغريدات 
(قد تحمل كل تغريدة أكثر من موضوع واحد)» وبعدها gl‏ دور تحليل المشاعر المتمحور 
حول الموضوعات. كانت الفائدة الرئيسة في استخدام عدد كبير من مكونات إضافة 
الشروحات الدلالية المتوفرة مسبقا في أن تطوير التطبيق استغرق وقنًا قصيرًا للغاية. 

تدعم عمليات البحث والتصوير الرسومي المستندة إلى نظام Mímir‏ استكشاف 
مجموعات بيانات كبيرة تتألف من SÍ‏ من ٠٤‏ مليون تغريدة بصورة فعالة. تحتوي 
استعلامات Mimir‏ الاعتيادية قيودًا من قبيل الطابع الزمني USE‏ إلى توقيت 
جرينيتش) ونوع التغريدة (تغريدة أصلية أو رد على تغريدة أخرى أو إعادة نشر تغريدة 
أخرى) ونية التصويت (المغادرة/ البقاء) وذكر مستخدم/ هاشتاغ/ موضوع معين, 
وكتابة التغريدة من قبل مستخدم محدد» واحتواء التغريدة على علامة هاشتاغ معينة أو 
موضوع محدد (مثال: جميع التغريدات التي تناقش الضرائب). يوجد أعلاه تصويرات 
رسومية تستند إلى الشروحات نقدمها كأمثلة. تتميز جميع هذه التصويرات leb‏ تفاعلية» 
حيث يستطيع المستخدم الضغط على عنصر معين (مثال: شريط موضوعات أو إقليم 
59 ورؤية جميع التغريدات التي تدعم هذا العنصر المحدد من عناصر التصوير 
الرسومي المجمّعة بصورة فورية. ومع أنها ما زالت في مرحلة التطويرء إلا أن هذه 
المنهجية المفتوحة المصدر والخاصة بعمليات البحث والتصوير الرسومي ذات النطاق 
الواسع قد أثبتت قدرتها على توفير مزايا عديدة من حيث تقليل الوقت المستغرق في 
التطوير وفي مستوى الفعالية وقدرتها على توفير تصويرات رسومية متعددة. 


e pe 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الرسومية للمشاركات ذات الحجم الكبير والسرعة المرتفعة أنه يطرح تحديًا من نوع 


M 


تشمل بعض المشكلات التي تحتاج مزيدا من البحث والدراسة ما يلي: 


تصميم تصويرات رسومية بدههية وذات معنى قادرة على أن تعبر بصورة 
بديهية الدلالات المعقدة ذات الأبعاد المتعددة للمحتوى qe‏ من قبل 
المستخدم, (على سبيل JEU‏ الموضوعات والكيانات والأحداث والمعلومات 
الديموغرافية الخاصة بالمستخدم (ب) في ذلك المواقع الجغرافية والمشاعر 
عرض التغييرات التي تحدث بمرور الوقت بصيغة رسومية. 

دعم المستويات المختلفة من التجزئة التفصيلية (granularity)‏ على مستوى 
المحتوى الدلالي ومجموعات المستخدمين والنوافذ الزمنية. 

السماح باستكشاف تفاعلي لحظي. 

التكامل مع البحث ele‏ للمستخدمين باختيار جزء فرعي من المحتوى ذي 
الصلة. 

إزاحة الستار عن الطابع النقاشي/ الموضوعي للمحادثات الدائرة على وسائل 
التواصل الاجتماعى» ومعالحة المشكلاات المتعلقة بقابلية التوسيع والكفاءة. 
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الخائمه 
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نختتم هذا الكتاب بملخص للنقاط الرئيسة وبعض الملحوظات العامة حول 
استخدام معالجة اللغات الطبيعية في تطبيقات الويب الدلالي» وبعض الأفكار عن 
الاتجاهات المستقبلية. 


1-1۰ ملخص 

كان هدف هذا الكتاب تقديم بعض المفاهيم والأساليب والأدوات الأساسية في 
معالجة اللغات الطبيعية وتحليل النصوص وعرضها أمام باحثي الويب الدلالي» وشرح 
الأسباب التي تجعلها ضرورية لتكوين فهم واضح ليس Jad‏ أساليب معالجة اللغات 
الطبيعية مفيدة فحسب» بل أيضًا لفهم أوجه القصور فيها. شرحنا هذه الأساليب في 
مختلف فصول الكتاب مع عرض أمثلة للأدوات الشائعة ذات المصدر المفتوح التي 
يمكن استخدامهاء وناقشنا المشكلات المتعلقة بدمج تلك الأدوات المعتمدة» وإعطاء 
فكرة معينة عن الأداء المتوقع. 

جرى تخصيص الجزء الأول من هذا الكتاب لشرح المفاهيم الرئيسة التي تشكل 
الأساس لعملية معالجة اللغات الطبيعية» وذلك من أجل التمهيد لمهام أكثر تعقيدًا 
في المراحل التالية من الكتاب. حرصنا كثيرًا على pU‏ منهجية «خط الأنابيب» 
(pipeline)‏ المتبعة في بناء التطبيقات المعتمدة على معالجحة اللغات الطبيعية» بداية بالمهام 
ذات المستوى المنخفض مثل مهام معالجة اللغات الطبيعية الأساسية» ثم الانتقال إلى 
مهام أكثر تعقيدًا مثل مهام إيجاد العلاقات وتطوير الأنطولوجيات وتعدين الآراء. كا 
وضعنا في الاعتبار أنواعًا مختلفة من المهام والتطبيقات» مثل تحليل وسائل التواصل 
الاجتماعي وأنواع التكييفات المحددة المطلوبة لإجراء تلك المهام» بالإضافة إلى كيفية 
استخدام جميع هذه الأدوات لإنشاء تطبيقات أكثر تعقيدًا كالتطبيقات المعززة دلاليًا 
لاسترجاع المعلومات وعرضها في صيغة مرئية. 

في X‏ المطاف» يفترض أن يخرج القارئ بعد قراءة هذا الكتاب بفهم المبادئ 
الرئيسة لمعالجة اللغات الطبيعية ودورها في الويب الدلالي» ولديه القدرة على اختيار 
تقنيات معالجة اللغات الطبيعية التي يمكن استخدامها لتعزيز تطبيقات الويب الدلالي 
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الخاصة به. هناك بالطبع الكثير من الموضوعات والآدوات التي لم نناقشها هناء ولكن 
أشرنا إلى مراجع وأماكن أخرى يمكن العثور فيها على شروحات أكثر تفصيلاً. يحاول 
هذا الكتاب أن يجمع في مكان واحد بعض المواد التي تعد الأكثر صلة لتحقيق هذه 
الغايات. 


۲-١‏ الاتجاهات المستقبلية 

في حين تشكل الأساليب الجوهرية لمعالجة اللغات الطبيعية الأساس الذي يقوم عليه 
الكثير من مهام معالجة اللغات الطبيعية» مثل| لاحظنا في مختلف أقسام هذا الكتاب» 
إلا أنه لا تزال هناك العديد من التحديات التي ينبغي مواجهتها عند اعتماد أساليب 
وأدوات معالجة اللغات الطبيعية وتكييفها لتتلاءم مع الأشكال الجديدة للبيانات 
والأنواع الجديدة من التطبيقات التي تظهر باستمرار. في هذا القسم» نناقش بعضًا من 
الاتجاهات المهمة التى ينبغى أن تمضى نحوها أبحاث معالجة اللغات الطبيعية من أجل 
مواكبة التطورات (Ael S‏ 


1-۲-۹ التجميع متعدد الوسائط والتعدد اللغوي 

جرى تطوير غالبية الأساليب المشمولة في هذا الكتاب وتقييمها على نوع واحد فقط 
من أنواع الوسائط (مثال: النصوص الإخبارية أو تويتر أو مشاركات المدونات). غير 
أن العديد من التطبيقات الحالية يتطلب دمج أنواع ختلفة من النصوص» على سبيل 
المثال ربط التغريدات بالمقالات والمدونات الإخبارية. علاوة على ذلك» يمكن أن 
يتجاوز الربط بين الأنواع المختلفة من الوسائط هذا النطاق» وهذه قضية مهمة ما زالت 
مفتوحة» وذلك بسبب كون المستخدمين يستخدمون أكثر من منصة واحدة من منصات 
وسائل التواصل الاجتماعي» وغالبًا ما يكون ذلك لأسباب مختلفة (مثال: لأغراض 
الاستخدام الشخصي مقارنة بأغراض الاستخدام المهني). إضافة إلى ذلك» وني ضوء 
تحول أسلوب حياة الناس إلى أسلوب رقمي على نحو مطرد» سيقدم هذا العمل إجابة 
جزئية تسهم في التغلب على التحدي الذي تمثله عملية الربط بين مجموعاتنا الشخصية 
(مثال: رسائل البريد الإلكتروني» الصور) مع هوياتنا على وسائل التواصل الاجتماعي. 
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يكمن التحدي في بناء ناذج حسابية لدمج محتوى الوسائط المتعددة وتحليلها 
وعرضها في صيغة مرئية» وتضمينها في خوارزميات قادرة على التعامل مع تدفقات 
وسائل التواصل الاجتماعي ذات المنصات المتعددة التي تتسم بكونها ذات أعداد كبيرة 
وذات طبيعة متناقضة ومتعددة الأغراض. على سبيل المثال» هناك حاجة لإجراء المزيد 
من الأعمال على خوارزميات تجميع محتوى الوسائط المتعددة ورصد المويات على 
الوسائط المتعددة ونمذجة التناقضات بين المصادر المختلفة» واستنباط التغيرات التي 
Tas‏ على الاهتهامات والسلوكيات مع مرور الوقت. 

هناك Ad‏ كبير آخر ذو صلة» وهو تحدي التعددية اللغوية» فمعظم الأساليب المشمولة 
في هذا الكتاب جرى تطويرها واختبارها باستخدام محتوى مكتوب باللغة الإنجليزية 
فقطء LE‏ عادة ما تكون أول باب تطرقه الأساليب التكنولوجية والتطبيقات الجديدة. 
غير أنه ينبغي لنا MT‏ نتغاضى عن أهمية تكييف هذه الأدوات لتتلاءم مع اللغات الأخرى 
و/ أو تمكينها من التعامل مع لغات متعددة في آن واحد. وكا ناقشنا في القسم /-7-/اء 
يجري اتخاذ بعض المخطوات الأولية عبر توفير معاجم متعددة اللغات» مثل Wiktionary‏ 
]289[ و UBY‏ ]290[ والأنطولوجيات القائمة على أسس لغوية [291]. كما ركزت 
الأبحاث الأخرى على توسيع نطاق الموارد اللغوية المتوفرة للغات التي تجري دراستها 
بصورة أقل» وذلك عبر ما يعرف بالتعهيد الجماعي (crowdsourcing)‏ وهي الاستعانة 
بالجمهور من أجل الحصول على البيانات أو المعلومات. على وجه الخصوص» برزت 
خدمة «أمازون ميكانيكال تورك») (Amazon Mechanical Turk)‏ كأداة مھمة› 
وذلك لسهولة إنشاء مشاريع التعهيد الجماعي فيهاء إلى جانب كونها تسمح ب" الوصول 
إلى أسواق أجنبية يوجد فيها أشخاص يتحدثون الكثير من اللغات النادرة» [364]. 
تكون هذه الخدمة مفيدة بصفة خاصة للباحثين الذين يعملون على اللغات المنخفضة 
الموارد كالعربية ]365[ والأوردية ]364[ وغيرهما [368-366]. تبيّن دراسة إيرفين 
وكليمينتييف ]368[ على سبيل المثال أنه يمكن إنشاء معاجم تجمع بين اللغة الإنجليزية 
YV‏ من أصل EYII‏ لغة منخفضة الموارد التي شملتها اختبارات الدراسة. وبالمثل 
تقوم دراسة (فايكسابراون وآخرون) ]369[ بإنشاء معاجم مشاعر ذات نطاق محدد 
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عبر التعهيد الجماعي بلغات عدة» وذلك عبر ألعاب هادفة. من الجوانب ذات الصلة 
تصميم مشاريع التعهيد الجماعي لكي يسهل استخدامها مرة أخرى بلغات متعددة» 
على سبيل المثال ]368 370[ بالنسبة لخدمة «أمازون ميكانيكال & ,3( 37115 372[ 
بالنسبة للألعاب المادفة. هناك LAÍ‏ مسألة متصلة تتعلق بالمكانز ذات الشروحات 
والتقيبمات» وسنعود إليهما في القسم ٤-۲-٠١‏ أدناه. 

dol‏ ومع تزايد استهلاك المستخدمين لمحتوى وسائل التواصل الاجتماعي على 
أجهزة مختلفة (كالحواسيب السطحية والأجهزة اللوحية وال هواتف الذكية)» تبرز هناك 
حاجة لتطوير أساليب تتيح الوصول إلى المعلومات وتكون متوافقة مع منصات متعددة 
و/ أو تكون مستقلة عن المنصات. لكن تصبح هذه المهمة صعبة بصفة خاصة عند 
عرض المعلومات في صيغة مرئية على الأجهزة ذات الشاشات الصغيرة. 

۲-۲-١‏ الدمج والمعرفة الخلفية 

تقليديًاء تركز جهود الأبحاث على تطوير مسار بحثي معين» مثل الأساليب القائمة 
على القواعد أو أساليب التعلم الخاضعة للإشراف. er‏ مزايا المسارات البحثية» 
فبعضها يتميز في تعلم تمثيلات وناذج الخصائص بناءً على بيانات تدريبية مصنفة» 
وتقديم التوقعات عن البيانات غير المرئية ]60 في حين يستفيد بعضها الآخر عن 
المعرفة الخلفية» على سبيل المثال» عن طريق تعلم قواعد الاستنباط بالاستناد إلى قواعد 
المعرفة الأولية (seed knowledge bases)‏ ]095 110[ أو إنشاء البيانات التدريبية 
ul‏ لأغراض التعلم الخاضع للإشراف بالاعتماد على قواعد المعرفة الأولية seed)‏ 
(knowledge bases‏ [273 81« 373[. 

من الأمور التي أثبتت فائدتها في العالم الحقيقي الحصول على وجهات نظر مختلفة عن 
المشكلة نفسها باستخدام أساليب مختلفة ]95[ أو باستخدام مخططات استخراج ختلفة 
]107[ ودمجها معًا. ومع وجود بعض الأعمال التي أجريت في جال دمج الأساليب 
المختلفة» على سبيل المثال استخدام تعلم المجموعات (learning ensemble)‏ ]374[ 
أو المخططات الشاملة [107» 110]» مع الأخذ بالاعتبار أن غالبية الأعمال لا تركز على 
هذا الأمر. بالإضافة إلى ذلك» تفترض الأعمال التي تجرى في Jle‏ دمج المخططات 
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وجود مخططين متداخلين. لكن في واقع الأمر» يُستخدم أكثر من مخططين اثنين لتعريف 
المعلومات. (S‏ أن المخططات لا تكون متداخلة في جميع الأوقات» وهذا من الأسباب 
التي تدعو إلى استخدام مخططات مختلفة من البداية. 

هناك تحديات إضافية لا تزال قائمة تتعلق بتعلم قواعد الاستنباط من قواعد 
المعرفة. في كثير من cote ME‏ تأخذ أبحاث تعلم اللغات الطبيعية في الاعتبار 
الإعدادات الاصطناعية التي لا AÉ‏ فيها المخططات العلاقات القائمة بين المفاهيم أو 
الخصائص. على سبيل JEU‏ في نظام 21055 AE‏ العلاقات بواسطة الخصائص التي 
توجد فيها خصائص فرعية ومجاللات ونطاقات» بنا يسمح OWL‏ بتعريف علاقات 
عكسية متبادلة. غير أن الأعمال التي تُعنى بتعلم الاستنباط تتجاهل ذلك إلى حد بعيدء 
وتفترض أنه ينبغي تعلم جميع العلاقات من هذا النوع بدءًا من الصفرء ولذا لا تركز 
على التحدي المتمثل في تجاوز نطاق ما جرى تعريفه مسبقًا. 

۳-۲-٠١‏ قابلية التوسيع والفعالية 

عندما يتعلق الأمر بأبحاث استخراج المعلومات» تعطي الخوارزميات ذات النطاق 
الكبير (يُشار إليها أيضًا باسم معالجة اللغات الطبيعية ذات البيانات الكثيفة أو على نطاق 
الويب) نتائج متفوقة مقارنة بنتائج المنهجيات التي تدرب على مجموعات بيانات أقل 
حجًا [375]. يعود الفضل في ذلك إلى حد كبير إلى معالجة مشكلة تناثر البيانات عبر 
جمع أعداد أكبر بكثير من الأمثلة اللغوية التي تحدث بشكل طبيعي [375]. تشبه الحاجة 
إلى أساليب تعتمد على البيانات لإجراء عمليات معالجة اللغات الطبيعية ونجاح هذه 
الأساليب إلى حد بعيد الاتجاهات التى برزت في الآونة الأخيرة في المجالات البحثية 
الأخرى. وهذا يؤدي إلى ما يشار JJ‏ بعبارة «النموذج الرابع للعلم» the fourth)‏ 
Cof science paradigm‏ [376]. 

في الوقت ذاته» ينبغي أن تكون عملية إضافة الشروحات الدلالية وخوارزميات 
الوصول إلى بيانات قابلة للتوسيع وفعالة» وذلك لكي تتكيف مع كميات البيانات 
الضخمة التي توجد في تدفقات وسائل التواصل الاجتماعي. تتطلب العديد من 
حالات الاستخدام معالجة إلكترونية شبه لحظية» وهو ما يبرز متطلبات إضافية من 
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حيث درجة تعقيد الخوارزمية. بانت الحوسبة السحابية ]377[ das‏ على نحو متزايد 
من العوامل الممكنة الأساسية التي تتيح إجراء عملية المعالجة بصورة قابلة للتوسيع 
وحسب الطلب» وهو ما يمنح الباحثين في أي مكان القدرة على الوصول إلى البنية 
التحتية الحوسبية بتكاليف ميسرة» ويسمح بتوفير طاقة حسابية كبيرة حسب الطلب 
ومن دون تكبد تكاليف مسبقة. 

غير أن تطوير خوارزميات متوازية وقابلة للتوسيع لمنصات من قبيل Hadoop‏ ليست 
مهمة سهلة على الإطلاق. لأن التشغيل والتبادل البسيط لمنظومات إضافة الشروحات 
الدلالية وموازاة الخوارزميات ليس سوى عدد قليل من المتطلبات التي ينبغي تلبيتها. 
ما زالت الأبحاث في هذا المجال في مراحلها الأولى» ولا سيا تلك الأبحاث المتركزة 
حول منصات الأغراض العامة التي تختص بالمعالحة الدلالية القابلة للتوسيع. 

يمكن اعتبار سحابة GATE‏ © أنها الخطوة الأولى في هذا الاتجاه [320]. هذه 
المنصة الجديدة قائمة على الحوسبة السحابية لأبحاث تعدين النصوص واسعة النطاق» 
كما تدعم منظومات إضافة الشروحات الدلالية المبنية على الأنطولوجيات. dage‏ هذه 
السحابة إلى تزويد الباحثين بمنصة كخدمة «(platform-as-a-service)‏ وهو ما 
يتيح لهم إجراء اختبارات واسعة النطاق في مجال معالجة اللغات الطبيعية عبر استغلال 
الطاقة الحسابية abu‏ المتوفرة حسب الطلب على سحابة أمازون. كما تقلل الحاجة 
لتنفيذ خوارزميات مخحصصة قابلة للموازاة. تتولى المنصة التعامل مع المشكلات البنيوية» 
وذلك بشكل GU Clas‏ بالنسبة للباحث: موازنة الحمل» وتحميل البيانات وتخزينها 
بكفاءة» والتشغيل على الآلات الافتراضية» والأمان» وتدارك الأخطاء. 

من الأمثلة على تطبيقات سحابة GATE‏ أحد مشاريع الأرشيف الوطني البريطاني 
]293[ إذ جرى استخدامها لإضافة شروحات دلالية إلى £Y‏ تيرابايت من صفحات 
الويب وغيرها من المحتوى النصى. كانت عملية إضافة الشروحات مدعومة بواسطة 
قاعدة معرفية واسعة النطاق» مأخوذة من سحابة LOD‏ وموقع «data.gov.uk‏ 


1- http://cloud.gate.ac.uk 
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وقاعدة بيانات جغرافية ضخمة. جرت فهرسة النتائج في منصة GATE Mímir‏ 
]297[ بالإضافة إلى واجهة مستخدم خصصة للتصفح والبحث والانتقال من مساحة 
الوثيقة إلى قاعدة المعرفة الدلالية عبر بحث النص الكامل والشروحات الدلالية 
واستعلامات لغة «سباركل) (SPARQL)‏ 


٠-۲-١‏ التقييم ومجموعات البيانات المشتركة والتعهيد الجماعي 

يعد التقييم القضية المفتوحة الرابعة. وكا نوقش من قبلء قد يعيق انعدام معيار ذهبي 
مشترك لمجموعات البيانات إلى حد كبير قابلية التكرار والتقييم المقارن للخوارزميات. 
في الوقت ذاته» من المطلوب توفر تجارب تقييم معتمدة على المستخدمين أو مبنية على 
المهام» وذلك من أجل تحديد المشكلات الموجودة في أساليب البحث والعرض المرئي 
القائمة حاليًا. هناك مجموعة كبيرة من الأبحاث التي لا تعرض نتائج اختبارات التقييم» 
أو الأبحاث التي قامت فقط بإجراء دراسات تكوينية ذات نطاق محدود. ولا Cos‏ في Jle‏ 
الوصول المبتكر للمعلومات. على وجه الخصوصء هناك انعدام في عمليات التقييم الطولي 
(longitudinal evaluation)‏ التي تجري بواسطة مجموعات مستخدمين أكبر حجًا. 

وبالمثل» يعد تدريب الخوارزميات وتكييفها على مجموعات البيانات التي تشكل 
المعيار الذهبي في وسائل التواصل الاجتماعي في الوقت JH‏ محدودًا جدًا. على سبيل 
المثال» لا توجد مجموعات بيانات المعيار الذهبي لتويتر وملخصات المدونات» S‏ يوجد 
أقل وزع a ٠٠ر٠ ٠٠‏ أشيقك إلبها روات فن صب كبانات سا تعد عجلية 
إنشاء cole set‏ بيانات كبيرة (o‏ فيه الكفاية وها ضرورة مهمة من خلال المنهجيات 
التقليدية المستندة إلى الخبراء لإضافة الشروحات النصية عملية باهظة الثمن» سواءٌ 
أكانت من حيث الوقت el‏ التمويل المطلوب» فقد يتراوح التمويل بين ٠,”‏ دولار 
أمريكي و٠ ١,‏ دولار أمريكي للكلمة الواحدة[1371]» وهو ما يعد باهظ الثمن بالنسبة 
للمكانز المكونة من ملايين الكلمات. يمكن خفض التكاليف جزئيًا عبر أدوات تعاونية 
متوفرة على الإنترنت لإضافة الشر وحات» مثل أداة GATE Teamware‏ [378] وأداة 
WebAnno‏ ]379[ وهما تدعمان أطقم عمل ie pe‏ كما eel‏ تناسبان بشكل خاص 
مضيفي الشروحات غير الخبراء. 
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هناك بديل يشمل استخدام أسواق التعهيد الجماعي التجارية» إذ تشير التقارير إلى 
أن تكلفتها أقل بنسبة AYY‏ من تكلفة الموظفين التابعين للشركة, عندما يتعلق الأمر 
eb‏ مهام من قبيل تصنيف أقسام الكلام والتصنيف بشكل عام (classification)‏ 
[380]. من ثم بدأ الباحثون في Jle‏ معالجة اللغات إنشاء مكانز تحتوي على شروحات 
بواسطة خدمة «أمازون ميكانيكال تورك) (Amazon Mechanical Turk)‏ وخدمة 
771 ومنهجيات أخرى معتمدة على الألعاب للحصول على وسائل بديلة 
أقل كلفة. 

وبخصوص إضافة الشروحات إلى المكانز على وجه التحديد تقدر دراسة (بويسيو 
وآخرون) [371] أنه مقارنة بتكلفة عمليات إضافة الشروحات التي تنفذ من قبل 
الخبراء (تقدر قيمتها بنحو مليون $5 COM‏ يمكن تقليل تكلفة مليون من الوحدات 
اللغوية المضاف إليها الشروحات لما دون /.٥١‏ عبر استعمال خدمة «ميكانيكال تورك») 
(MTurk)‏ (۰۰۰, ۳۸۰ دولار - ٤۰,۰۰۰‏ دولار) لنحو ZY*‏ (۲۱۷,۹۲۷ 
دولار) عند استخدام منهجية مستندة إلى الألعاب مثل لعبة PhraseDetectives‏ 
الخاصة ee‏ الدراسة. وفيا يتعلق بإنشاء شروحات وسائل التواصل الاجتماعي عبر 
التعهيد الجماعي» كانت هناك بعض التجارب التي أجريت على تصنيف التغريدات 
إلى فئات ]381[ وإضافة الشروحات إلى كيانات الأساء في التغريدات ]292[ من 
بين أشياء أخرى. في جال الويب الدلالي نفسه. استكشف الباحثون التعهيد الجماعي 
في الغالب عبر ألعاب هادفة» لاكتساب المعرفة في المقام الأول ]382( 383[ وتحسين 
LOD‏ ]384[. 


في الوقت ذاته» لحأ الباحثون إلى التعهيد الجماعي كوسيلة لتوسيع نطاق تجارب 
الاختبارات المستندة إلى العامل البشري. يكمن التحدي الرئيس هنا في كيفية تعريف 
مهمة التقيبم» لكي يتسنى الحصول عليها عبر التعهيد الجماعي من أشخاص ليسوا 
خبراء» مع توفير نتائج عالية الجودة [385]. هذه المهمة ليست سهلة على الإطلاق» 
وقد جادل الباحثون بأن مهام التقييم التي تنفذ عبر التعهيد الجماعي ينبغي أن تصمم 
بصورة مختلفة عن التقييمات التي تتم على أيدي الخبراء [386]. على وجه الخصوص» 
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خلصت دراسة جيليك وليو [386] إلى أن تقييم أنظمة التلخيص الذي ينفذ من قبل 
أشخاص ليسوا خبراء يعطي نتائج مشوشة بصورة كبرىء ولذا فإنها تتطلب مزيدًا من 
التكرار للوصول إلى الأهمية الإحصائية (S «(statistical significance)‏ أن عمال 
خدمة «ميكانيكال 5 )3( (Mechanical Turk)‏ لا يمكنهم إعداد تصنيفات درجات 
متوافقة مع تصنيفات الخيراء. 


من التصميمات الناجحة للتقييم المستند إلى التعهيد الجاعي تصميم يستخدم سير 
عمل مكون من أربع مراحل ذات مهام منفصلة» حيث جرى استخدامه في استيعاب 
قراءة الترجمة الآلية [367]. استخدم تصميم أبسط للمهام في دراسة ]387[ لتقييم 
ملخصات التغريدات» حيث cle‏ من عامل موقع «ميكانيكال تورك» أن يحددواء 
وفقا لمقياس مكون من خمس نقاط» كمية المعلومات المنتجة من قبل البشر الموجودة في 
الملخص الذي جرى إنتاجه بصورة آلية. هناك مثال آخر من أمثلة التقييم» وهو مثال 
حقق نتائج ناجحة في موقع «ميكانيكال تورك)» وهو التصنيف المزدوج ]388[ في هذه 
الحالة تكون المهمة تحديد الجملة الأكثر غنى بالمعلومات في أحد تقييات المنتجات. في 
هذه الحالة» calo‏ من عامل التعهيد الجماعي ذكر ما إذا كانت الجملة التي اختيرت من 
قبل النظام المعياري تحمل قدرًا أكبر من المعلومات من ila‏ اختيرت بواسطة أسلوب 
المؤلف. جرى تحديد ترتيب الجمل بصورة عشوائية» وكان من الممكن أيضًا الإشارة 
إلى أن أيّا من هذه الجمل كانت ملخصًا جيدًا. على الرغم من كل هذه الأعمالء لا تزال 
هناك مشكلات في أدوات تحويل المكانز القابلة للاستعمال المتكرر وواجهات المستخدم 
الخاصة بمهام معالجة اللغات الطبيعية التي تنفذ عبر التعهيد الجماعي. يعالج ملحق 
Gate Crowdsourcing‏ للتعهيد ure‏ ذي المصدر المفتوح ]389[ هذا التحدي عبر 
توفير دعم بنيوي لمواءمة الوثائق مع وحدات التعهيد الجماعي والعكس» وذلك بصورة 
تلقائية» بالإضافة إلى التوليد التلقائي لواجهات تعهيد جماعي قابلة للاستعمال المتكرر 
لغرض إجراء مهام التصنيف والاختيار في عملية معالجة اللغات الطبيعية. يشار إلى أن 
سير العمل بأكمله قد جرى اختباره على مهام متنوعة من مهام معالجة اللغات الطبيعية» 
بها فيها إضافة الشروحات إلى كيانات ce ee ME‏ وإزالة الغموض عن الكلمات» وكيانات 
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الأسماء في يتصل بمعرفات الموارد المميزة (URIs)‏ الخاصة بقاعدة بيانات «DBpedia‏ 
وإضافة الشروحات إلى أصحاب الآراء والأهداف» وكذلك المشاعر. 

ختامّاء برز التعهيد الجماعي في الآونة الأخيرة كأسلوب واعد لإنشاء مجموعات 
بيانات تقييمية مشتركة» بالإضافة إلى تنفيذ اختبارات تقييم تنفذ على يد المستخدمين. 
يعد تكييف هذه الجهود لتتناسب مع الخصائص المحددة لعملية إضافة الشروحات 
الدلالية وعرض المعلومات في صيغة مرئية» بالإضافة إلى استخدامها لإنشاء موارد 
واسعة النطاق وتقيبيات طولية قابلة للتكرار» من المجالات الأساسية لإجراء الأبحاث 
المستقبلية. 
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مسرد المصطلحات العلمية 
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المفهوم/ الترجمة 

اشتقاق جذع الكلمة 

ارتباط النص بموضوع 
السوابق واللواحق (في الكلمات) 
التحليل الكلي 

xia]‏ اللات والشروحات 
منهجيات 

تمييز المصطلحات JYI‏ 

كيس الكلمات 

ن كلب zoll‏ 

تسلسل العناصر الثنائي 
الكلمات الحدودية 


تجزئة النص 


تقريبي -إجمالي 
التحليل الجماعي 
اللسانيات الحاسوبية 
ومهمة كشف التناقض 
لغة مقيدة 


التوارد المشترك 
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المصطلح 

Stemming 

Aboutness 

Affixes 

Aggregated analysis 
Annotation 

Approaches 

Automatic Term Recognition 
Bag of words 

barrier word approach 
Bigram 

boundary words 

Chunking 

classifiers 

Clustering 

Coarse-grained 

collective analysis 
computational linguistics (CL) 
contradiction detection (CD) 
Controlled Language 


Co-occurrence 
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المفهوم/ الترجمة 
مكنز 


الاشتراك الجماعى عبر الويب لتحقيق 


تبعثر البيانات 

تبعية - اعتاد 

إزالة الغموض 

ذو نطاق حر 

آلة الحالات المحدودة 

حو لات طاقة محدودة 
الكلمات الوظيفية 

معجم كيانات الأسماء 
معيار ذهبي 

نماذج ماركوف المخفية 
خاضع للوشراف البشري 
الزوائد في أواسط الكلمات 
المعتمد على المعرفة 
مصنف -مسمى 

مستقل اللغة 

إزالة الزوائد - المدخل المعجمي 


المصطلح 


Corpus 
crowdsourcing 


data sparsity 
dependency 
disambiguation 
domain-independent 
Fine-grained 
finite-state machine 
finite-state transducers 
function words 
Gazetteer 
gold-standard 

HMMs 

human supervision 
Infix 
Knowledge-based 
Labelled 
language-independent 


lemmas 
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المفهوم/ الترجمة 
التحليل المعجمي 
التحول الأقصى 


فكرة أو صورة سريعة الانتشار على 


الويب 

الاستعارات 

أصغر وحدة لغوية ذات معنى 
التحليل الصرفي 

الصرف 

كيانات الأسماء 

تصنيف كيانات الأسماء واختصارها 
ربط كيانات الأسماء 


التعرف على كيانات الأسماء واختصارها 


مهمة التعرف على كيانات الأساء 
ia,‏ 


هندسة اللغات الطبيعية 
توليد اللغات الطبيعية 
معالجة اللغات الطبيعية 


فهم اللغات الطبيعية 


تسلسل عدد من العناصر 


المصطلح 
lexical analysis‏ 


maximum entropy 
Memes 


Metaphor 

Morpheme 

Morphological analysis 
Morphology 

Named Entity 

named entity classification (NEC) 
Named entity linking (NEL) 
Named Entity Recognition (NER) 


named entity recognition and 


classification (NERC) 

natural language engineering (NLE) 
natural language generation (NLG) 
Natural Language Processing (NLP) 


natural language understanding 


(NLU) 
n-gram 


Noisy 


-YA \- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————-‏ 


المفهوم/ الترجمة 

اسمي -اعتباري 

تحويل النص إلى الشكل القياسي 

حول النص للشكل القياسي 

العبارة الاسمية 

Ul‏ تصميم الأنطولوجيات 
استخلاص المعلومات الموجه بواسطة 
علم PN‏ 


عملية تعلم MI‏ والتعبئة 


تعبئة الأنطولوجيا 


استخلاص المعلومات المستندة إلى علم 
Pp‏ 


تعدين الآراء 

وسيط 

Jte‏ تحوي 

تصنيف أقسام الكلام 

البيرسيبترونز: مستقبلات الشبكات 
العصبونية الاصطناعية» del‏ 
خوارزميات التعلم الخاضع للإشراف 
المعلومات المتبادلة الممثلة بالنقاط 


كشف قطبية الرأي 


المصطلح 
Nominals‏ 


Normalization 


Normalizer 


Noun Phrase 
Ontology Design Patterns 


Ontology Guided Information 


Extraction 


ontology learning and population 
(OLP) 


Ontology population 


Ontology-Based Information 


Extraction (OBIE) 
Opinion mining 
parameters 

Parser 


Part-of-Speech (POS) tagging 


Perceptrons 


Pointwise Mutual Information 


Polarity detection 
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أنظمة الإجابات على الأسئلة 


"EP 
التعبيرات القياسية‎ 
استخراج العلاقات‎ 
المعتمد على القواعد‎ 

بذرة 

الشرح التوضيحي الدلالي 
المغزى الدلالي 

شبه خاضع للإشراف 
تحليل المشاعر 

التحليل السطحي 

pee 
اللواحق (في الكلمات)‎ 
الخاضع للإشراف‎ 
دعم المتجه‎ eT 
مصنف‎ 
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المصطلح 

Predictive analysis 

Prefix 

Question answering systems 
recognizing textual entailment - RTE 
regular expression 

Relation Extraction 

rule-based 

Seed 

Segmenting 

semantic annotation 

semantic drift 

Semi- supervised 

Sentiment Analysis 

Shallow or light parsing 

Splitter 

Suffix 

Supervised 

Support Vector Machines (SVM) 
tagger 


Term extraction 


AS. 


المفهوم/ الترجمة 

تنقيب النصوص 

حل 

وحدة لغوية 

تقطيع الكلمات 

الت عل dol‏ 
شجرة المعلومات 
تسلسل العناصر الغلاثي 
وحدة لغوية فريدة 
تسلسل العناصر الأحادي 
غير الخاضع للإشراف 
معرف الموارد الموحد 
ااا کا 
سهم الاتجاه 

العبارة الفعلية 

جامع بيانات الويب 
مواقع تعاونية 

القاموس ا حر التعاوني 
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المصطلح 
Text mining‏ 
Threshold‏ 
token‏ 


Tokenization 


transformation-based 


treebank 
tri-gram 
Type 
Unigram 
unsupervised 
URI 

URL 

Vector 

Verb Phrase 
web crawler 
Wiki 
Wiktionary 


Word embeddings 
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I1 دراسات‎ 


معالجة اللغات الطبيعية للويب الدلالي 


يعمل مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية على تعزيز خدماته .2 
المجالات المتنوعة لخدمة اللغة العربية وعلومهاء إذ ينطلق من رؤية موحّدة 2 أعماله عامة - ومنها 
برنامج النشر - وذلك بأن يطلق برامجه ودراساته 4 المجالات التي تفتقر إلى جهود نوعية؛ أو 
الع تحتاع إلى کف الل خها: 

agis‏ اک اتاو اکب الى sus‏ كين هلاه baba‏ ان cue‏ هة ئی ا 
i2 jall‏ ومفتاحا للمشروعات العلمية والعملية. ومحققة لتراكم Baa‏ مثر. 

وإذ قشيد BLY‏ العامة بجهد مترجم الكتاب: ترجمةء وتصحيحًا لمسوداته: ومراجعة للطباعة؛ 
فإنها تدغو الباحكين كافة من أنحاء العالم إلى المساهمة ‏ هذه السلسة؛ لتتكامل مع سلاسل 
مركو افا ري 

ويسعد المركز بالعمل مع المؤسسات والأفراد المختصين والمهتمين 4 خدمة لغتنا العرييةء وتكثيف 
الجهود والتكامل نحو تمكين لغتناء وتحقيق وجودها السامي ب2 مجالات الحياة. 
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